QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1964|回复: 0
打印 上一主题 下一主题

各类机器学习算法的优缺点和适用场景汇总

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2021-4-10 11:24 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    $ L# t% x2 {; r4 V1 [8 e; V
    各类机器学习算法的优缺点和适用场景汇总
    7 y6 I. T4 D2 ]% E; z0 k. F' [4 x' f目录
    9 K& U! A3 P3 V; s8 S( d朴素贝叶斯分类器(NB:naive Bayes classifiers)
    2 p! x& ]5 l8 |/ n5 v' h5 Q半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)* q9 e& n3 q( B! s2 P" x
    贝叶斯网(信念网)/ A% a! ~" b" w! L: C9 t
    决策树(decision tree)
    2 P& O1 R$ R8 L9 s$ P" j支持向量机(SVM)
    ' h% B' x# L: F" U3 O神经网络
    + @/ t6 m' r5 T7 w2 w, n词向量(word2vec)4 a$ l+ u0 L6 B* s8 s
    k近邻分类(kNN)" [! ~0 m* K& U
    线性模型
    5 ^0 B! K7 ?+ }: S高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比
    ) {4 ]7 `/ U* ]3 j7 p关于学习算法的性能实验结果
    - \6 `4 V2 j9 E" B' d* J/ s6 Q! {朴素贝叶斯分类器(NB:naive Bayes classifiers)
    ( S* \6 a+ ^: |顾名思义,其适用于分类任务、并且假设每个属性独立地对分类结果发生影响,然而现实中各个因素往往并不独立,那是否就无法解决问题呢?
    1 g( B- F" j6 ~. q4 |& a事实上并非如此,相反,朴素贝叶斯分类器在很多情况下都能获得相当好的性能,一种解释是:无需精准概率值即可导致正确分类结果;另一种解释是:若属性间依赖对所有类别影响相同,或依赖关系的影响能相互抵消,则属性条件独立性假设在降低计算开销的同时,不会对性能产生负面影响。: u) _8 X3 L- ^2 J2 l: \* z% r& I

    ! O* B7 n# T* l8 f* ^% D* @0 w3 u优点:! m, R! u; N3 Q0 b
    1、计算量较小) J2 h$ W4 N6 R/ c6 _
    2、支持懒惰学习、增量学习1 T4 }3 v- j5 F0 y  R& y4 m
    3、对缺失数据不太敏感2 c; z9 g, L! \: q
    4、推断即查表,速度极快。
    , v0 s8 d/ _) D9 j; Y缺点:
    9 {* K7 t! F% f2 R" y8 F1、没有考虑属性间依赖: M! X. b( s* f$ L# W  s5 U7 o  h9 Z
    2、通过类先验概率产生模型
    / \) Y5 G2 K$ `0 x& M* ]# g/ `' W: V/ V. M: c
    半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)
    , ~; K, _6 A+ y( W; ^, p相比NB的不考虑依赖,SNB则是考虑了一个(独依赖估计策略:ODE)或多个(多依赖估计策略:kDE)属性依赖
    $ d& w6 L+ y4 p. z优点:# ]. k5 j6 N4 A; Z/ I; t0 Y8 h7 ^
    1、考虑了一个或多个比较强的属性依赖关系,泛化性能可能得到提升5 b* Q( y: F; }. L2 Q8 D- C
    2、计算开销不大: W! j, B) V4 }" _, c
    3、同样支持懒惰学习、增量学习3 I+ E7 H$ a; g) l! a1 `
    缺点:: [  L' H; t; `8 Z
    1、通过类先验概率产生模型9 ]% U. @% l  v) A" e  V. x7 x3 |/ c

    9 i6 w7 _  T$ r7 m. C: B/ @, }贝叶斯网(信念网)5 E  H! y# y) i6 `7 I% C# H
    贝叶斯网借助有向无环图刻画属性之间的依赖关系,通过吉布斯采样或者变分推断等方式来近似推断后验概率。
    : O. v2 b. k7 A* I4 a优点:! e2 S5 ^5 f# U% \3 o1 r. o: U5 C
    1、更加完整地考虑了属性间依赖关系,泛化性能将进一步提升
    " O1 K  [) `' U: ^! L2、近似估算后验概率
    ( Z- q: }+ Z% P  E( R4 Z+ @2 A) ?3 o3、可用于推测属性缺失的样本9 w5 c4 v7 D- O" C* D
    4、良好的可解释性
    ! r3 b; L+ _7 ]$ ~4 f5、常用于语音识别、机器翻译等
    8 W) [0 a' ]' j/ f缺点:
    " ]9 }4 u& T6 q" U2 W. M1、结构学习NP难,通过评分搜索方法缓解  Y1 [* n: c0 B& }
    2、推断算法的收敛速度较慢$ V; A' f1 w# x! v( L5 O
    ) k6 Q! y' j5 ~% C  q6 X
    决策树(decision tree)
    $ Q* b' H, D) _. ?0 G决策树通过信息纯度(信息增益、增益率、基尼指数等)来决定结点的生成,通过剪枝来缩小决策树的尺寸以及缓解过拟合。是一种非参数学习算法。$ x1 E. u) X  A2 b. k3 u
    优点:8 o1 u5 L6 \3 |4 b6 g: W3 q$ ~
    1、计算量较小, n3 T- n: a1 @, D5 [
    2、清晰表达属性的重要程度
    ) R# G3 k5 o7 \2 K7 R1 r* B0 `1 g) u3、可增量学习对模型进行部分重构
    . e1 m8 Y( ~& c- j4、不需要任何领域知识和参数假设
    : R( z  y( c$ b/ X5、适合高维数据- P' v  u% O$ E" {2 [4 C9 @) L  W. m, X
    6、随机森林是基于决策树的集成学习策略,随机森林鲜有短板
    + i. q7 r& m& B- J: B  v5 q缺点:
    ! d5 `% d3 K; l0 h4 [. G5 X$ N1、没有考虑属性间依赖
    * H$ }8 y2 Q/ W3 K! d8 F4 c2 P2、容易过拟合,通过剪枝缓解
    % s/ \, r, J3 }3 g5 P3、不可用于推测属性缺失的样本5 I4 y+ F; z" u! m9 ?+ c) r
    : s1 c& l, z9 J2 X
    支持向量机(SVM)+ W0 \6 s% ?- Z& K
    基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开,是一种针对二分类设计的算法,但稍加改造为支持向量回归即可用于回归学习。# Z' c6 Y* F+ L7 j( c: g
    优点:
    ( u' y0 {0 R+ C1 S6 f' p6 t1、可解决小样本的机器学习任务
    + A; h" t8 s! T: I  L& f2、可解决高维问题4 C: r/ N0 t( K5 k- m/ ?& \
    3、可通过核方法解决非线性问题
    9 b+ K; X# E( i, u6 @2 }缺点:
    6 @* b; \4 C" c6 [( \0 U( n2 a1、对缺失数据敏感; l/ _  w1 m1 B0 B+ k
    2、对于非线性问题,核函数方法选择一直是个未决问题
    7 C) b% o: O3 o9 L; i
    3 t. \1 m% T5 M8 O$ g2 X% C神经网络5 V4 o, c9 F$ O0 J0 n
    优点:/ d: C' R9 o6 t
    1、分类的准确度极高
    - f2 E% ^* H+ G/ _2、可解决复杂的非线性问题
    8 |. ~2 v/ w1 E5 V7 x" T- {; j3、对噪声神经有较强的鲁棒性和容错能力
    / Y: X. Z1 Z: O4、并行分布处理能力强,分布存储及学习能力强  K  G5 s. ^1 {9 L+ y! i
    5、常用于图像识别
    : N3 G6 G0 E: C& Q8 _. g) f6、数据量越大,表现越好
    ! u& o2 H% u8 [9 B' N缺点:
    % _& u) `/ i( y9 y' [1、黑箱模型,难以解释5 i0 p9 m( F- \+ D# ~
    2、需要初始化以及训练大量参数,如网络结构、权值、阈值,计算复杂
    : E7 D  D( ~: A. Q- u3、误差逆传播的损失% |. z; l/ w1 [: O" X, k4 r
    4、容易陷入局部最小
    . Y& _8 c6 K8 K' B: s( Q$ N3 r$ L% \# r' M+ U1 P
    词向量(word2vec)% ]0 M, M3 Y. W2 D- Y
    将文章的每句话当成一行,将每个词用符号隔开(如使用中文分词工具jieba),根据上下文,可以找出相似词义的词。" l5 i# I6 A* h$ |4 e. W
    比如:我 喜欢 你,我 爱 你,我 讨厌 你。根据上下文我和你,可以找到喜欢的相似词,有爱和讨厌。
    ; e( `; x: b% s0 n- ~1 p4 D- G1 E再一般地如:1 2 3 X 4 5 6,1 2 3 Y 4 5 6。根据上下文1 2 3和4 5 6,可以找到X和Y相似。$ R+ T2 s- G( l) y
    gensim是一个很好用的Python NLP的包,不光可以用于使用word2vec,还有很多其他的API可以用。它封装了google的C语言版的word2vec。
    ) X0 R. D* Y3 E5 W: f
    1 K/ c0 `5 L- z' L, M! R6 S$ Xk近邻分类(kNN)( h( |2 d4 x+ O. `+ ~
    基于某种距离度量找出训练集中与其最靠近的k个训练样本,或者指定距离e之内的训练样本,分类任务中通过投票法(以及加权投票等)将出现最多的类别标记作为预测结果,回归任务中则使用平均法(以及加权平均等)
    - Q) g* o3 `/ o6 U优点:
    , K: C# l) F( L% Q1、思想简单,易于理解,易于实现,无需估计参数,无需训练;
    1 ]6 X/ L5 E6 K( [+ Y2、适合对稀有事件进行分类;
    ! u" q! w1 H7 I7 e$ Q" M; ?0 ?3、特别适用于多分类问题0 }2 f5 {2 U1 ^) k* q0 _- Q0 z* A0 v
    缺点:  b) }) _: I5 ?* c
    1、需要计算出待测样本与所有样本的距离,计算量大
    4 ?1 n) d) J6 }5 |/ Y2、样本不平衡时影响大/ a7 H" V( d2 z5 P4 t
    3、适用的特征维度低5 n& U0 U) o* U- a6 `8 g7 {# J
    1 z$ p2 I. m  O/ U3 y" j
    线性模型
    ! u& U: g2 N7 n7 ~9 ^2 f优点:# J; d. E. w8 Y6 y
    1、算法简单,编程方便$ N) |/ E6 l' G5 q4 Z$ n
    2、计算简单,决策速度快
    1 K* @, }' V9 z- s缺点:4 |, F, T% z( H( H# N! i
    1、拟合效果较差
    : ~  e5 ~) o+ G# |  M
    6 E$ p8 M3 H( I/ h高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比
    7 v0 F  W) x: @1 U3 {) u. kk-means是高斯混合聚类在混合成分方差相等、且每个样本仅指派给一个混合成分时的特例,因此k-means计算简单,但效果不如高斯混合聚类3 F( V6 w: _6 [0 r- H# h, m( ]' P- p. F
    由于计算太过复杂,高斯混合聚类并不常用,推荐使用k-means++(与k-means随机选定不同,k-means++初始选定的几个样本距离尽量远,这样能更快得出分簇结果)等k-means变种。; s& t2 Z/ j: S. V5 \
    3 K# v% h; [% `/ z1 k
    关于学习算法的性能实验结果1 j! m' H* }. L$ J9 k3 _
    点击查看原文
    - A/ u8 |% _9 T+ Q" m' c& E( a
    1 c* \, a$ M- A14年的时候有人做过一个实验[1],比较在不同数据集上(121个),不同的分类器(179个)的实际效果。0 U- L# r" X9 J. ]! j, z
    论文题为:Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?% R3 E% Z& m" D# f4 V% r+ j" }  e: r
    没有最好的分类器,只有最合适的分类器。$ _) d2 O0 l% n, f
    1、随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。
    : n4 I1 r0 \. L2、SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。
      {! B+ Y( u* ]1 X# S, N6 I  Q3、神经网络(13.2%)和boosting(~9%)表现不错。2 u; O+ |' G0 g2 K( P/ G
    4、数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM[2]。
    / d; S# H1 w4 a: J5、数据量越大,神经网络就越强。
    4 g/ h3 j, t3 c; Q1 g: `0 F————————————————
    3 K8 _: l1 S5 E版权声明:本文为CSDN博主「路飞的纯白世界」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。+ P6 K8 a) D; F* Q5 y7 D" @' w0 A
    原文链接:https://blog.csdn.net/u010921136/article/details/90668382
    ' t$ o! r: A/ E( a
    # R- C$ v, ?9 s4 |
    . @" _" H, n4 E
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-20 16:58 , Processed in 0.649181 second(s), 50 queries .

    回顶部