QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1620|回复: 0
打印 上一主题 下一主题

各类机器学习算法的优缺点和适用场景汇总

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

81

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2021-4-10 11:24 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    ! e3 c/ u2 M; j4 I
    各类机器学习算法的优缺点和适用场景汇总
    + q0 D7 x# T3 q5 L目录8 g( b- Y" G$ L7 y: r; f/ T0 x
    朴素贝叶斯分类器(NB:naive Bayes classifiers)
    5 E4 f1 s/ ?) V1 z半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)( D! y/ S/ j% |" X, f* B; n
    贝叶斯网(信念网)
    ' z/ h5 {# Q: R! G, k1 [0 A# Q/ h: V决策树(decision tree)
    8 x9 }$ Z8 U5 l9 a3 i/ u支持向量机(SVM)3 H; D- y2 ?9 }$ w9 \0 i
    神经网络8 G& m& ?: X# q- W. K- s
    词向量(word2vec)6 K3 O  J0 ?8 i: P  \
    k近邻分类(kNN)! i$ t9 |( q  c* m3 O3 w
    线性模型4 Z5 ^* u6 B1 V/ k+ P9 K% u
    高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比
    + }: }$ a& w" v' }关于学习算法的性能实验结果
      U$ Z/ T3 E2 J5 b& R( m( l朴素贝叶斯分类器(NB:naive Bayes classifiers)! H9 f6 V! F& D  }
    顾名思义,其适用于分类任务、并且假设每个属性独立地对分类结果发生影响,然而现实中各个因素往往并不独立,那是否就无法解决问题呢?
    & u+ W8 x) R; J4 S8 l事实上并非如此,相反,朴素贝叶斯分类器在很多情况下都能获得相当好的性能,一种解释是:无需精准概率值即可导致正确分类结果;另一种解释是:若属性间依赖对所有类别影响相同,或依赖关系的影响能相互抵消,则属性条件独立性假设在降低计算开销的同时,不会对性能产生负面影响。+ R( ?  Q% T# B8 U5 m/ i1 h1 T

    ! N: w- v1 P0 _; Q优点:& S5 o  ?  C! Z6 j
    1、计算量较小6 s- z6 b+ V8 G3 a- ]9 G
    2、支持懒惰学习、增量学习9 k/ T  A! |) g- @1 ]
    3、对缺失数据不太敏感
    2 I- W, \* |: w' M% N2 J" n4、推断即查表,速度极快。1 X9 q; p) w# |0 g- h
    缺点:! w; q6 ?; S' L6 Z! ~+ @' E
    1、没有考虑属性间依赖
    ! N% m% \5 K; o$ d# Y% n' O8 [2、通过类先验概率产生模型
    - L# \# L4 M1 J4 Q  g0 O, @2 Q6 r; K( b  [5 N: n
    半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)$ K6 l( b( {2 i/ U4 x5 r: }
    相比NB的不考虑依赖,SNB则是考虑了一个(独依赖估计策略:ODE)或多个(多依赖估计策略:kDE)属性依赖
    . L! I$ n6 H0 A; M& N4 V优点:
    ' P; X/ r, n! ~5 z1、考虑了一个或多个比较强的属性依赖关系,泛化性能可能得到提升
    1 I) s  L3 L2 {& C. K% I7 H2、计算开销不大0 t) i. c5 M' k/ N
    3、同样支持懒惰学习、增量学习
    ; ]* j% G" `# I) C缺点:) q9 Q' Z( x0 G, K+ v5 W- k6 @
    1、通过类先验概率产生模型6 g$ q- {! a% D4 a0 n1 V
    0 _1 j8 O8 }& K* V
    贝叶斯网(信念网)
    7 d3 B" ]; e3 Y4 r/ x贝叶斯网借助有向无环图刻画属性之间的依赖关系,通过吉布斯采样或者变分推断等方式来近似推断后验概率。
    * n) O1 [- I+ S1 W7 z+ B优点:
    ) c- y/ D$ z6 x( A- A9 q& j1、更加完整地考虑了属性间依赖关系,泛化性能将进一步提升" _2 g! q+ Y: t) r
    2、近似估算后验概率
    ( p& W& y5 \# D6 Q/ g- L3、可用于推测属性缺失的样本
    1 M1 t4 k3 {% q6 j# [5 X) a' a4、良好的可解释性
    , W8 O4 K/ g% j1 H5、常用于语音识别、机器翻译等
    2 w! A/ Z. T9 ?1 l4 e) T缺点:8 @' f$ A, j2 }5 D3 f
    1、结构学习NP难,通过评分搜索方法缓解
    7 K. F' x  E' R2、推断算法的收敛速度较慢; i8 b4 s+ C, Q# d
    3 N8 T2 s) ^: f& v2 n
    决策树(decision tree)6 |1 m$ F& N0 \- V  P
    决策树通过信息纯度(信息增益、增益率、基尼指数等)来决定结点的生成,通过剪枝来缩小决策树的尺寸以及缓解过拟合。是一种非参数学习算法。" _/ G+ h  ^4 ~6 E; T, ?
    优点:+ Y) X" u/ |0 P. d
    1、计算量较小
    % J3 n! D7 N& a2 N+ @2、清晰表达属性的重要程度3 ]! u2 K( {1 c1 _  k! W% I/ ~
    3、可增量学习对模型进行部分重构
    * H6 _8 Y* X4 k+ [4、不需要任何领域知识和参数假设# `7 P' S8 H) y# v
    5、适合高维数据+ h3 p+ c) J2 ~( \3 j7 o# l( L% z9 e
    6、随机森林是基于决策树的集成学习策略,随机森林鲜有短板
    , ~3 i3 s! b( O缺点:
    8 f3 b8 ^- s- m" r0 ^1、没有考虑属性间依赖0 F6 c( j  P& w1 Z4 W7 E: F$ j% Q
    2、容易过拟合,通过剪枝缓解
    : ?$ E4 ]; Z9 D# D6 F3 y3、不可用于推测属性缺失的样本
      Y" c# |& R3 I; s* z0 k& r
    * w1 p" @% x7 J9 T5 V6 a支持向量机(SVM)" G' }, E/ i/ x5 Y/ V5 _
    基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开,是一种针对二分类设计的算法,但稍加改造为支持向量回归即可用于回归学习。
    ! i3 g9 t, p1 }3 x: z$ N优点:
    1 ]" e% d9 F# J4 q) l6 p7 w1、可解决小样本的机器学习任务9 G2 B6 ]- c! F& p3 m
    2、可解决高维问题
    ; M" z$ o2 I% ]: e" {3、可通过核方法解决非线性问题- b8 Z- ?. B+ ?) f( A# I
    缺点:$ C# s$ j) B4 k
    1、对缺失数据敏感
    5 s1 q) L- M$ N# N3 m2、对于非线性问题,核函数方法选择一直是个未决问题
    $ {- r: I( v% W$ G
    ; \/ E  @# l% y% ?7 L% q4 \2 o* Y神经网络9 |6 o1 }' g. Z4 [6 v2 L" t; e
    优点:8 D% G1 n( s3 q$ i
    1、分类的准确度极高
    ! O! k  A4 t' D+ n6 L2、可解决复杂的非线性问题
    ! q2 u4 A- Y7 {8 x8 u6 S3、对噪声神经有较强的鲁棒性和容错能力% J* f- z/ I# B; n- u- ^4 @. d
    4、并行分布处理能力强,分布存储及学习能力强! d: P' v3 h9 Z( |- |! O. f
    5、常用于图像识别
    : n7 Y2 c2 }3 o6、数据量越大,表现越好; \2 X3 Q9 L2 X* E& z2 C4 u
    缺点:# z: X. P8 \5 u7 i0 \
    1、黑箱模型,难以解释: y! g3 _! n3 x$ W# P! P2 f
    2、需要初始化以及训练大量参数,如网络结构、权值、阈值,计算复杂
    ' ?- U: ?, N* l' R1 {* u! o7 z; g: E3、误差逆传播的损失
    ) m: m: K/ V) K- E: r4、容易陷入局部最小
    ! k& T( n0 p8 z
    . }6 B) q0 q) X6 c% ]词向量(word2vec)) B* w1 P; @6 k
    将文章的每句话当成一行,将每个词用符号隔开(如使用中文分词工具jieba),根据上下文,可以找出相似词义的词。
    ; y% H) M1 \$ }) l比如:我 喜欢 你,我 爱 你,我 讨厌 你。根据上下文我和你,可以找到喜欢的相似词,有爱和讨厌。
    & k- j2 H3 Y. O( s  t; d再一般地如:1 2 3 X 4 5 6,1 2 3 Y 4 5 6。根据上下文1 2 3和4 5 6,可以找到X和Y相似。
    ! ?$ Q( Z& H- b* r3 \# t* Hgensim是一个很好用的Python NLP的包,不光可以用于使用word2vec,还有很多其他的API可以用。它封装了google的C语言版的word2vec。4 E2 h, Y  @  Q# z1 S; q3 H& s

    , ~: y9 p6 g* L8 Nk近邻分类(kNN)& v) ]* V% k" a. F
    基于某种距离度量找出训练集中与其最靠近的k个训练样本,或者指定距离e之内的训练样本,分类任务中通过投票法(以及加权投票等)将出现最多的类别标记作为预测结果,回归任务中则使用平均法(以及加权平均等)1 [9 G! @  Y" S+ @/ ~/ u
    优点:
    " ^* V: X$ O" [' X& n1、思想简单,易于理解,易于实现,无需估计参数,无需训练;: J: e. o. v2 f3 u3 x
    2、适合对稀有事件进行分类;% e4 Q" q5 q, P4 L; F
    3、特别适用于多分类问题+ I# r9 w( r4 ^/ N9 A
    缺点:3 q; I% D$ C2 Y7 E
    1、需要计算出待测样本与所有样本的距离,计算量大
    ' B0 k; H* f6 ]9 k0 J2、样本不平衡时影响大
      L; F3 X! h3 O) b3、适用的特征维度低" A& \3 y- u# C: {' p

    $ j6 X& c0 E5 @* i! h. O线性模型
    # d' k9 I  P. }- y, o% d优点:
    4 H; B( I; D: Y0 h' Z' ?8 V1、算法简单,编程方便
    1 |* O0 v7 U9 j( v2、计算简单,决策速度快  J6 K; Y; a* j( o  E7 {* `
    缺点:
    9 T; z# o8 W( h1、拟合效果较差
    . A5 U! I4 b* F8 m  [, ]3 ^4 I. p& k* x# N" q# `+ o, q9 g
    高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比0 b# M1 p) _4 M: n/ v+ @/ o/ V
    k-means是高斯混合聚类在混合成分方差相等、且每个样本仅指派给一个混合成分时的特例,因此k-means计算简单,但效果不如高斯混合聚类
    - d: `8 n: q9 s# P# D由于计算太过复杂,高斯混合聚类并不常用,推荐使用k-means++(与k-means随机选定不同,k-means++初始选定的几个样本距离尽量远,这样能更快得出分簇结果)等k-means变种。
    ; g  r( W. z, H. g7 f; a# i7 _* y7 C* E3 s8 P! i( \, E
    关于学习算法的性能实验结果, ]. }0 {, T7 L( E* J) `2 t, ^, m
    点击查看原文# b, D  W* F$ B: R9 Z

    3 Z: f4 e* x' L' h14年的时候有人做过一个实验[1],比较在不同数据集上(121个),不同的分类器(179个)的实际效果。. _; [3 H, k1 B7 q, p( d: j
    论文题为:Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?
    . X+ Z4 P# A8 W  o没有最好的分类器,只有最合适的分类器。
    / `5 q8 j) f  Z! j7 P# n1、随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。. ]# Y; S( ?. g4 P1 o3 j
    2、SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。! w0 P( @7 K* V. \0 f% f% r# ^
    3、神经网络(13.2%)和boosting(~9%)表现不错。. [: O0 Q0 o1 C+ ?/ J& i8 B; f' G
    4、数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM[2]。
    0 J4 q* X- W7 f4 u, b+ s5、数据量越大,神经网络就越强。
    ( I# q6 ~: C1 `! y————————————————. Z9 h( z  b' e4 `6 D: E9 h
    版权声明:本文为CSDN博主「路飞的纯白世界」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    & f" _/ q7 a' q- t0 A) i$ L原文链接:https://blog.csdn.net/u010921136/article/details/90668382
    5 c7 F. h+ O  q. [) o
    % c4 P! p9 o5 R- n' V
    $ z! z6 q4 U! D9 y. ^1 Y: G! ^- b
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-5-15 09:09 , Processed in 0.420124 second(s), 50 queries .

    回顶部