QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1963|回复: 0
打印 上一主题 下一主题

各类机器学习算法的优缺点和适用场景汇总

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2021-4-10 11:24 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    ; e5 @( u- @- @; F2 o$ d1 [2 t
    各类机器学习算法的优缺点和适用场景汇总
    / o: ?' K% A" s: p! C目录: d0 l& O7 Y; e3 l( g
    朴素贝叶斯分类器(NB:naive Bayes classifiers)
    ! g# k, k9 r  `# \4 i1 p半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)
    ( F) @+ F, U! b贝叶斯网(信念网). w% y- G; w! {. _. a
    决策树(decision tree). K, |" w: N+ f1 ^, V
    支持向量机(SVM)4 T; V/ _" q7 k* D
    神经网络. b: l/ i: Z, O4 D; W" u3 R& U
    词向量(word2vec)3 r& J# F4 C* A" F& |. A( E
    k近邻分类(kNN)
    5 q' P$ q) G9 ^. f1 J线性模型/ C' F# f% f" L4 B) o; g
    高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比) c# ?, f- a, O
    关于学习算法的性能实验结果
    . g2 W: v8 c2 i" j/ P7 b; I# \朴素贝叶斯分类器(NB:naive Bayes classifiers)( e8 e$ \- j# O9 d: k
    顾名思义,其适用于分类任务、并且假设每个属性独立地对分类结果发生影响,然而现实中各个因素往往并不独立,那是否就无法解决问题呢?, _+ u' a6 P7 ^# y1 m2 f) O0 m
    事实上并非如此,相反,朴素贝叶斯分类器在很多情况下都能获得相当好的性能,一种解释是:无需精准概率值即可导致正确分类结果;另一种解释是:若属性间依赖对所有类别影响相同,或依赖关系的影响能相互抵消,则属性条件独立性假设在降低计算开销的同时,不会对性能产生负面影响。
    ' ?/ J, ]& ^1 o- A* K% V
    & T  ?, N/ Z1 p优点:) d! @) I! V; T4 D
    1、计算量较小. U& ?& T) Z/ L) _1 b
    2、支持懒惰学习、增量学习
    8 l$ L5 ~9 h+ g3 w3、对缺失数据不太敏感$ e, a/ j, m, K; r  {  n% P. s
    4、推断即查表,速度极快。, F) J) a1 i' W- Z2 }. |6 r& }0 c
    缺点:
    % w  K% B# |! W7 B! ~6 h1、没有考虑属性间依赖
    * q, I# f1 h/ X$ T) P5 d2、通过类先验概率产生模型; i0 j3 z; z# I% a4 u) x! e, C" s. j

    / z- B$ w+ w( ~7 C半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)2 _' w( S* O8 j4 t( Q9 a6 \
    相比NB的不考虑依赖,SNB则是考虑了一个(独依赖估计策略:ODE)或多个(多依赖估计策略:kDE)属性依赖6 ~" h0 |' Z) O+ ?" ]) b
    优点:+ j: k6 P1 \! o1 O' t% j) v
    1、考虑了一个或多个比较强的属性依赖关系,泛化性能可能得到提升2 p- |9 Z, H* Y7 D
    2、计算开销不大
    . A6 Z/ M; P& i' p- s0 L5 u$ V3、同样支持懒惰学习、增量学习& b7 H: z# g. |
    缺点:+ S3 l' ^; P1 A) n
    1、通过类先验概率产生模型, S' S: s1 e+ w) J; G
    . U7 q9 y4 G0 \& c* w" @. l
    贝叶斯网(信念网)
    2 d0 `5 H8 Q8 ?  |贝叶斯网借助有向无环图刻画属性之间的依赖关系,通过吉布斯采样或者变分推断等方式来近似推断后验概率。
    % v4 f( P1 K( R) ~优点:
    & i9 Y* y3 c: a" p+ R2 o( D1、更加完整地考虑了属性间依赖关系,泛化性能将进一步提升- D' r/ A# h  u. H! B
    2、近似估算后验概率6 a* h2 [) r5 V
    3、可用于推测属性缺失的样本
    $ Y. e4 \) L- P  Q; ~  p( X9 ~4、良好的可解释性% W! L- {, u- P: x; {
    5、常用于语音识别、机器翻译等$ \- ~) c% r2 F  @6 K" P
    缺点:
    + D4 k  R+ \3 ~; v( G" j) f; M0 ~1、结构学习NP难,通过评分搜索方法缓解3 T/ O& r0 |) E" y" @- q6 M  h( r
    2、推断算法的收敛速度较慢
      U# x1 @/ t, z2 O' B* y: M# ?: a( a9 |
    决策树(decision tree)
    ) |! i' ?7 x5 ]7 Z* E6 b决策树通过信息纯度(信息增益、增益率、基尼指数等)来决定结点的生成,通过剪枝来缩小决策树的尺寸以及缓解过拟合。是一种非参数学习算法。
    " N' E( D' d, z$ ~优点:) v3 O/ a0 V! f% j/ S: h; Z( G6 g- F
    1、计算量较小
    % ?+ [. k* c5 X/ ?* q6 B2、清晰表达属性的重要程度
    # n* R9 J' K7 j3 o+ _+ _. d7 j" T& g- W3、可增量学习对模型进行部分重构
    0 _" H& Q- l1 V$ P' q4、不需要任何领域知识和参数假设
    : @, Y6 G5 R5 ?$ e8 s3 P  V5、适合高维数据
    9 u( i$ F- v1 N7 i6 x) L6、随机森林是基于决策树的集成学习策略,随机森林鲜有短板
    ' q% I$ K1 ]5 U# y% m+ h3 T缺点:
    : g9 S3 S* U- A: h  {9 q1、没有考虑属性间依赖; _& {: U/ {5 A
    2、容易过拟合,通过剪枝缓解
    - g- o2 E, Q: w; ]5 p3、不可用于推测属性缺失的样本
    6 L# _3 A4 ~, ^% x
    ! U9 G( T, l( V" q  U4 |2 H支持向量机(SVM)/ n; }. o0 F7 A/ O. d+ u. Q
    基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开,是一种针对二分类设计的算法,但稍加改造为支持向量回归即可用于回归学习。
    ' R" h! E% ~/ s% V优点:: R- z0 f' J, z2 t5 d
    1、可解决小样本的机器学习任务4 D- X2 Q. x+ P/ S/ y8 t
    2、可解决高维问题
    ) `# D1 z& S' m% M% a3、可通过核方法解决非线性问题
    4 L* q' @) @6 j缺点:. n' S1 T; [2 m9 D* Q4 `
    1、对缺失数据敏感% X1 W3 B8 _, E1 U$ T% R
    2、对于非线性问题,核函数方法选择一直是个未决问题2 b! p" S( v! x2 G; {

    3 Z/ {7 a8 E  q神经网络
    ; ~; b* Y4 Q% T& z5 T' i优点:+ H8 h. r- r+ X
    1、分类的准确度极高; b' R# {0 O# [. C. ], p
    2、可解决复杂的非线性问题
    - K* R' {; |6 `9 l. h: e# B3、对噪声神经有较强的鲁棒性和容错能力( f- j0 v2 y  U6 V" F* l( x# K
    4、并行分布处理能力强,分布存储及学习能力强
    ) a) @5 V/ j8 T/ K5、常用于图像识别
    . l0 J1 \7 }  L( q6、数据量越大,表现越好
    7 w1 p" q3 c8 ^# h7 O) D缺点:
    ) Z# `; _* M- k( V( E& f1、黑箱模型,难以解释% o7 }1 A  N. N: a& _* m; d
    2、需要初始化以及训练大量参数,如网络结构、权值、阈值,计算复杂8 k, {2 y4 u' D
    3、误差逆传播的损失9 u' Y2 g: c3 s4 V
    4、容易陷入局部最小
    . s+ I6 A. O3 b: S; V3 }; m$ H$ d
    词向量(word2vec)
    7 z- `$ z6 U& e* ]将文章的每句话当成一行,将每个词用符号隔开(如使用中文分词工具jieba),根据上下文,可以找出相似词义的词。
    + }, e0 \. N3 @8 o' Z$ o* p. B比如:我 喜欢 你,我 爱 你,我 讨厌 你。根据上下文我和你,可以找到喜欢的相似词,有爱和讨厌。
    0 g5 c6 S) g$ Y) O( X再一般地如:1 2 3 X 4 5 6,1 2 3 Y 4 5 6。根据上下文1 2 3和4 5 6,可以找到X和Y相似。
    - h4 k: x# A8 p$ Q: |. Wgensim是一个很好用的Python NLP的包,不光可以用于使用word2vec,还有很多其他的API可以用。它封装了google的C语言版的word2vec。& `( ^; k% X1 k/ L- }
    ( q0 i8 R' j  P. k+ O3 b  R& @/ a4 A
    k近邻分类(kNN)4 l4 {: g3 \: A; z
    基于某种距离度量找出训练集中与其最靠近的k个训练样本,或者指定距离e之内的训练样本,分类任务中通过投票法(以及加权投票等)将出现最多的类别标记作为预测结果,回归任务中则使用平均法(以及加权平均等)
    3 P6 b8 h5 l! p- _# @" `优点:
    2 Z6 E% H) W, t( Y( }1、思想简单,易于理解,易于实现,无需估计参数,无需训练;
    3 L: i! W6 L0 U/ c5 s+ G2、适合对稀有事件进行分类;
    " ?+ C$ b' J" h" @! B8 T3、特别适用于多分类问题
    % T- H. E7 h8 c$ w, N! D2 D  \缺点:3 I) a+ k9 q" b0 T( @: q
    1、需要计算出待测样本与所有样本的距离,计算量大3 \& e' q( j9 j/ V; q
    2、样本不平衡时影响大
    1 o$ Q9 o& @4 e! ^$ r3、适用的特征维度低5 C5 E0 g! E  N" P2 _$ a; `$ z3 o
    . J& d7 \! u* ]: r7 j3 r
    线性模型
    7 E. ^$ j# D# s* i8 [8 `优点:5 r( B: I! O9 Q( _% d8 v' {5 l; i
    1、算法简单,编程方便
    / V9 r/ V" l7 w2 g+ K8 B& Q2、计算简单,决策速度快# l3 F" }. I  \; q( t7 P
    缺点:
    ' f* Z, A/ y" O6 A1、拟合效果较差8 U- B% E% B5 }- {. t- i. t- g, x

    ; u( i6 p4 ^+ D. h. v2 c高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比3 O, E% h- \" c- N: _
    k-means是高斯混合聚类在混合成分方差相等、且每个样本仅指派给一个混合成分时的特例,因此k-means计算简单,但效果不如高斯混合聚类0 W; _6 D) h* w6 M0 S% U- v
    由于计算太过复杂,高斯混合聚类并不常用,推荐使用k-means++(与k-means随机选定不同,k-means++初始选定的几个样本距离尽量远,这样能更快得出分簇结果)等k-means变种。8 g2 Y: S" i3 ]6 ]' l
    + q& }( K( Y6 y+ i6 g9 X8 a1 G
    关于学习算法的性能实验结果9 Y, I# y+ z/ t8 Q0 y
    点击查看原文
    . A# u; w+ y% g6 v+ z1 I# D3 y2 \  @9 |7 t7 l% P, G
    14年的时候有人做过一个实验[1],比较在不同数据集上(121个),不同的分类器(179个)的实际效果。
    5 a% }  C1 _& G4 e- P5 ]& }$ C论文题为:Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?
    $ P. X3 c  z4 |- W) o没有最好的分类器,只有最合适的分类器。% a& {2 |# L& G' ^5 X
    1、随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。& X) m& t1 R! N6 ?8 M- c% Y# F
    2、SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。
    & j) v. g* M1 F4 a+ o! ?4 n; E3 p3、神经网络(13.2%)和boosting(~9%)表现不错。. n+ J! o8 H: L" j: r4 a
    4、数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM[2]。
    ' |% _6 Q0 P& W' _  Q; T% y5、数据量越大,神经网络就越强。
    6 z: ~+ m8 l( }9 J, O% ]' I- N. ^————————————————
    8 m) H6 L$ X9 F) D+ j% l" H! ]# |7 q版权声明:本文为CSDN博主「路飞的纯白世界」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。6 \: m7 L) u1 ]* g2 @0 Q
    原文链接:https://blog.csdn.net/u010921136/article/details/90668382! n& e9 d# `2 x! S4 d& B
    , J2 w2 @! R1 f% n! a+ D

    + H# J9 n. E# z# {+ c' r) I4 t
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-20 16:23 , Processed in 0.330705 second(s), 51 queries .

    回顶部