QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1969|回复: 0
打印 上一主题 下一主题

各类机器学习算法的优缺点和适用场景汇总

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2021-4-10 11:24 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    7 {/ _$ Q* ?4 g& s0 M各类机器学习算法的优缺点和适用场景汇总
    * y4 g1 d& p& L& L目录# c! c, d  w) |7 v
    朴素贝叶斯分类器(NB:naive Bayes classifiers)0 w. t$ u# A$ }& Q5 M
    半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)
    + q6 W. w, y( q+ s+ F3 K贝叶斯网(信念网)
    : r5 |# l$ j  v- s1 X决策树(decision tree)
    ) R  Y7 @! _. B: V6 c0 {. C支持向量机(SVM)
    5 [* h9 k/ q9 e+ d神经网络
    $ W) h8 B3 x. Y0 U* h. _8 g* L3 I. A6 T词向量(word2vec)
      g6 M* \( Z5 z3 U& F" Hk近邻分类(kNN)4 S' A2 h5 l" d5 g2 F1 H! @! ]3 G
    线性模型
    ) z# f3 x! e; x. A  J' `0 g8 M1 ^高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比% C8 O3 T7 k$ D
    关于学习算法的性能实验结果
    6 O& J: N3 S; w! J朴素贝叶斯分类器(NB:naive Bayes classifiers)
    9 H3 _$ [- Z% ~顾名思义,其适用于分类任务、并且假设每个属性独立地对分类结果发生影响,然而现实中各个因素往往并不独立,那是否就无法解决问题呢?
    9 E; i5 z  R  }3 A事实上并非如此,相反,朴素贝叶斯分类器在很多情况下都能获得相当好的性能,一种解释是:无需精准概率值即可导致正确分类结果;另一种解释是:若属性间依赖对所有类别影响相同,或依赖关系的影响能相互抵消,则属性条件独立性假设在降低计算开销的同时,不会对性能产生负面影响。
      a1 Z5 P5 V- G4 s  q5 r& M  ~( B0 v7 @0 J5 x& W3 m
    优点:
    + w# h4 T+ w% W2 L1、计算量较小
    & Z- ]4 q, {& i6 Z( q2、支持懒惰学习、增量学习
    / m& N9 y3 p- y  `9 A7 e. e3、对缺失数据不太敏感' E: t' @4 E/ j4 \
    4、推断即查表,速度极快。% o0 x: r: W3 i' c6 Q
    缺点:
    2 h, B/ y$ o7 E/ S& p1、没有考虑属性间依赖
      a) h* v1 G# e  `2、通过类先验概率产生模型5 J6 P6 F; j# A. u

    - s1 H0 ^; {- n9 p* v2 j+ E- x半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)
    2 p) T3 T, ~  N/ D0 z相比NB的不考虑依赖,SNB则是考虑了一个(独依赖估计策略:ODE)或多个(多依赖估计策略:kDE)属性依赖+ @0 C: P6 a$ @- ~$ J8 X# v9 V
    优点:" U$ r& r* Q: g: d
    1、考虑了一个或多个比较强的属性依赖关系,泛化性能可能得到提升7 G: _7 m- j$ O8 I2 ]+ `, _; v
    2、计算开销不大' Q: V6 ]) U6 N
    3、同样支持懒惰学习、增量学习6 F5 `1 r, v0 t. a- t  Y
    缺点:5 a1 U0 {- K3 ~0 c
    1、通过类先验概率产生模型
    - U/ d' u& Y+ n' c# R  |) J( F1 g5 \' r1 @; u: s
    贝叶斯网(信念网)
    # U, v) @$ r' V) X/ V( h, @3 G- Z贝叶斯网借助有向无环图刻画属性之间的依赖关系,通过吉布斯采样或者变分推断等方式来近似推断后验概率。/ ~1 N' J& b0 f" C* V) y
    优点:& k3 C- h8 M/ I6 ^( A# f
    1、更加完整地考虑了属性间依赖关系,泛化性能将进一步提升
    ) v) j& |) k( m$ o* Q# T2、近似估算后验概率; n0 |$ a/ ], V/ H# J7 ^  ]
    3、可用于推测属性缺失的样本3 P- W! ~% t6 \# g" j
    4、良好的可解释性) Q) z% _2 N0 u
    5、常用于语音识别、机器翻译等2 o+ _/ N( r/ p3 R+ b0 |2 f
    缺点:: ^9 F3 e# @' q' Z: V# R0 R! S
    1、结构学习NP难,通过评分搜索方法缓解
    ! d6 J  R; d% a2 X  g1 f5 g2、推断算法的收敛速度较慢
    - ^* `0 A; Z, H: H+ x6 S! L5 ?
    & a, `4 }( j1 s: P  _  g4 P6 B决策树(decision tree)3 h: Y7 P8 @% K" L3 G& P
    决策树通过信息纯度(信息增益、增益率、基尼指数等)来决定结点的生成,通过剪枝来缩小决策树的尺寸以及缓解过拟合。是一种非参数学习算法。! S/ H7 `; F: `5 ^6 G5 v
    优点:
    & M  B3 b+ I; X1 K: |5 w) {1、计算量较小$ i5 y+ J+ q( o/ x% I2 Y" R% a% F
    2、清晰表达属性的重要程度6 t9 a' Q4 O" g4 G
    3、可增量学习对模型进行部分重构8 ~6 ~" F; ?3 x2 M: a
    4、不需要任何领域知识和参数假设
    3 d, S7 L5 l- O5、适合高维数据1 r+ b* a; y8 w0 F
    6、随机森林是基于决策树的集成学习策略,随机森林鲜有短板8 l* n$ F/ A. ^1 W* C
    缺点:
    - b3 @* d) k+ J- M, S; t' o1、没有考虑属性间依赖/ E5 X; \; \& o& N" y- Y6 ~# [
    2、容易过拟合,通过剪枝缓解
    " s4 u7 D1 t! k3、不可用于推测属性缺失的样本2 P* ^" @  f9 E" J0 M4 U  E+ G
    4 V. F6 K9 v* v/ X8 K/ B% n
    支持向量机(SVM)
    9 p% ?  q% D1 H7 Y基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开,是一种针对二分类设计的算法,但稍加改造为支持向量回归即可用于回归学习。5 V, L9 ~/ X3 y$ o  z
    优点:& k& y9 x+ }% V5 y, U8 W
    1、可解决小样本的机器学习任务
    ; U5 ?, h  ~% E* m2、可解决高维问题) d" l: E% L3 [4 d" p
    3、可通过核方法解决非线性问题1 i% p/ W" P; F
    缺点:
    % B6 v/ P' I7 l7 m; f# k1、对缺失数据敏感: Y3 @  P" _' K, z+ u8 `) Y9 Q9 I
    2、对于非线性问题,核函数方法选择一直是个未决问题
    ) s6 z6 f4 W) }3 Z3 g, E8 {2 p* k
    ' P$ t+ w: m; v& B9 W神经网络/ p% t, j, R9 r/ b" g2 f' S
    优点:$ A+ H3 i  n8 f+ O1 s* i7 f/ [$ {
    1、分类的准确度极高
    5 \; S+ K$ A6 k; }5 n7 ~2、可解决复杂的非线性问题6 T* M1 s) ^2 N* A" x2 I8 o- s
    3、对噪声神经有较强的鲁棒性和容错能力
    ! L. j% |# @" C- ]4、并行分布处理能力强,分布存储及学习能力强* j- A  l; K8 ~
    5、常用于图像识别
    6 b- Q/ V0 ?; K( M6、数据量越大,表现越好# s2 R: J7 W- I! r1 Z; w) t2 p; k
    缺点:& M4 P4 h9 B; @% M
    1、黑箱模型,难以解释! e  B2 b5 U/ k  F$ A; {; Q
    2、需要初始化以及训练大量参数,如网络结构、权值、阈值,计算复杂1 e, l3 K' W6 l( T
    3、误差逆传播的损失  y' r, l, J9 {# N0 z. O  u. @
    4、容易陷入局部最小1 W8 y. D$ t+ D/ Y/ M2 L

    / q( h% h) e% @' R, [/ A: W. X' [词向量(word2vec)
    + K& r% M# m) @! e1 ?+ l将文章的每句话当成一行,将每个词用符号隔开(如使用中文分词工具jieba),根据上下文,可以找出相似词义的词。, F" q4 F0 u$ K; g4 |
    比如:我 喜欢 你,我 爱 你,我 讨厌 你。根据上下文我和你,可以找到喜欢的相似词,有爱和讨厌。
    0 u7 n/ v% ]: c3 t4 ?再一般地如:1 2 3 X 4 5 6,1 2 3 Y 4 5 6。根据上下文1 2 3和4 5 6,可以找到X和Y相似。  @# d6 G% R6 S% p2 o' }7 |
    gensim是一个很好用的Python NLP的包,不光可以用于使用word2vec,还有很多其他的API可以用。它封装了google的C语言版的word2vec。7 Z9 }3 ^% c0 p# B8 }& K
    / u% S- p7 y: |& {$ ]( c3 B
    k近邻分类(kNN), g; r4 q4 a* ]
    基于某种距离度量找出训练集中与其最靠近的k个训练样本,或者指定距离e之内的训练样本,分类任务中通过投票法(以及加权投票等)将出现最多的类别标记作为预测结果,回归任务中则使用平均法(以及加权平均等)
    # `( w7 H2 ?. l+ A优点:
    7 y) R5 i* b( _% Y, U5 h1、思想简单,易于理解,易于实现,无需估计参数,无需训练;7 P2 c6 [# S/ o+ ]1 O6 G. W# |
    2、适合对稀有事件进行分类;
    ; s6 R1 c9 w' r. o- \; P3 p' W5 p" H3、特别适用于多分类问题
    2 g, I2 a4 ~' Y* z; I+ V缺点:
    8 i# Q  r* {  U$ J9 t+ M8 P* b1、需要计算出待测样本与所有样本的距离,计算量大  |0 S  B8 t% b) ]/ e5 W. ^
    2、样本不平衡时影响大
    ' @- I! {1 ^1 H6 R9 ~8 `; ^3、适用的特征维度低
    % E3 T# T1 v1 b, E0 B3 F- y- g+ ?9 l' S2 F) e$ [6 P( e
    线性模型6 D8 J  e' ^: ?+ D) x
    优点:
    ! W7 V" T9 W+ n9 F1、算法简单,编程方便
    0 R3 e1 [2 m$ G# H2、计算简单,决策速度快
      ?7 }7 n+ a: G$ `( \+ u1 D# y: C缺点:
    $ I# n& [/ B; |5 D" j3 r( x1、拟合效果较差
    2 `# l8 c8 ]2 s* C7 i" K3 ]* g6 s. ~1 @3 N
    高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比
    ; h5 L4 J, W. \3 q: zk-means是高斯混合聚类在混合成分方差相等、且每个样本仅指派给一个混合成分时的特例,因此k-means计算简单,但效果不如高斯混合聚类9 Z9 z6 J7 P! l
    由于计算太过复杂,高斯混合聚类并不常用,推荐使用k-means++(与k-means随机选定不同,k-means++初始选定的几个样本距离尽量远,这样能更快得出分簇结果)等k-means变种。
    , P# N; |% l0 O% D' j/ p* g, [8 S2 q: J/ ?% {8 T  Z
    关于学习算法的性能实验结果
    , W8 |7 E+ A3 f$ x! @' {点击查看原文
    7 I# \, G+ O0 }, R0 ~1 a6 q+ u# ]+ G; ?* r
    14年的时候有人做过一个实验[1],比较在不同数据集上(121个),不同的分类器(179个)的实际效果。
    5 ~6 r; G% q8 q1 h) Y论文题为:Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?! [& a9 y; N5 c9 H
    没有最好的分类器,只有最合适的分类器。
    ' |9 ]: u" m0 ]! Q( h: v4 r0 a1、随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。: q2 t+ m4 R5 u7 ^1 W. a) V
    2、SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。
    # L* Q$ I0 c9 J1 D% K: r/ U$ V$ y3、神经网络(13.2%)和boosting(~9%)表现不错。8 H9 q4 Z0 b0 A' o
    4、数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM[2]。# [2 `6 y: c# Z; n
    5、数据量越大,神经网络就越强。5 J6 V! C. |4 O% z4 j6 P: f6 v
    ————————————————' q9 U1 [( b+ `4 a2 l) N
    版权声明:本文为CSDN博主「路飞的纯白世界」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。& l2 p0 J8 N$ ^; ~9 c
    原文链接:https://blog.csdn.net/u010921136/article/details/90668382
    " _4 \# C2 X3 d/ |& d3 T$ c" n
    ' C0 Y. `# [3 B6 m5 S* Z5 x7 k. w0 L- n& `$ n
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-21 18:38 , Processed in 0.465641 second(s), 50 queries .

    回顶部