QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2003|回复: 0
打印 上一主题 下一主题

各类机器学习算法的优缺点和适用场景汇总

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2021-4-10 11:24 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    - h5 r7 P% u) {各类机器学习算法的优缺点和适用场景汇总1 E8 J$ I- {( c' y% P
    目录
    0 ^" V" d- l3 B; a& j朴素贝叶斯分类器(NB:naive Bayes classifiers)
    , o3 v  b0 ?5 j: K" N) c: a半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)
    / L8 t5 c, q4 [/ G2 Q' }贝叶斯网(信念网)
    3 S1 m  x" Z" S* _决策树(decision tree)6 j$ |& J0 G/ l
    支持向量机(SVM)
    * n  M: W7 R8 G3 G: M( T: |  c# r6 B( v神经网络" X3 N. P2 L. y
    词向量(word2vec)
    ( D* @( `- i% g& Bk近邻分类(kNN)
    / J7 ]4 K+ F8 F' A  n! e线性模型* t2 a; P/ p7 q) v( J6 S, L9 T
    高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比
    " p# _" z% g3 _4 Y. Q% Y关于学习算法的性能实验结果+ W9 U2 t9 b' P3 W
    朴素贝叶斯分类器(NB:naive Bayes classifiers)3 m6 V% E1 t$ R) k% r" t5 T
    顾名思义,其适用于分类任务、并且假设每个属性独立地对分类结果发生影响,然而现实中各个因素往往并不独立,那是否就无法解决问题呢?- l) ?6 R3 C5 W6 R$ m2 N& }1 p
    事实上并非如此,相反,朴素贝叶斯分类器在很多情况下都能获得相当好的性能,一种解释是:无需精准概率值即可导致正确分类结果;另一种解释是:若属性间依赖对所有类别影响相同,或依赖关系的影响能相互抵消,则属性条件独立性假设在降低计算开销的同时,不会对性能产生负面影响。
    , j3 l, h% b4 @8 N% V; K/ J8 F9 W; _" M- D) x* w5 p; k
    优点:
    ; @3 D$ s. `/ y5 R# h  Z' h1 z1、计算量较小
    ' w* @# s6 S% y3 h- b! @. b2、支持懒惰学习、增量学习0 n  Q# y8 j# o" u0 Z
    3、对缺失数据不太敏感
    1 M4 l$ S" R3 e* W* H4、推断即查表,速度极快。
    9 |" y# O9 P- p% T) [缺点:. V4 C) I+ t' I# b0 A
    1、没有考虑属性间依赖
    + t7 ~* \$ }' n( H- Q6 t+ ~3 O) @2、通过类先验概率产生模型
    ; ~3 w! p8 ]# _$ k" ^4 y8 B# Z
    . M9 y/ X, T& N" I0 ?半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)
    ! D0 }/ b) U4 a相比NB的不考虑依赖,SNB则是考虑了一个(独依赖估计策略:ODE)或多个(多依赖估计策略:kDE)属性依赖9 h: }% f7 d. D7 a+ D& {: E
    优点:) }5 B) |, \  _9 e" w( B2 c* G" l
    1、考虑了一个或多个比较强的属性依赖关系,泛化性能可能得到提升+ c) }( I+ F7 o
    2、计算开销不大- n  c! v% w8 M" p8 }% ~+ y/ z" k- I
    3、同样支持懒惰学习、增量学习7 @1 R) n" X4 O9 y* \
    缺点:9 [( }, P" e( ^
    1、通过类先验概率产生模型7 R6 y% o) S# }+ {" x; i5 }$ g) k
    ; ~6 u: }3 R% O
    贝叶斯网(信念网)
    7 n% r$ i9 W4 t( P" A* e* W贝叶斯网借助有向无环图刻画属性之间的依赖关系,通过吉布斯采样或者变分推断等方式来近似推断后验概率。, Z$ w: `+ f/ i# f+ N
    优点:! ^9 ?1 N+ l2 k
    1、更加完整地考虑了属性间依赖关系,泛化性能将进一步提升
    0 y$ _! [$ a* d4 t* B2、近似估算后验概率$ z7 C) p. d1 F
    3、可用于推测属性缺失的样本/ H% t( h9 G) E- ]) H
    4、良好的可解释性& G% @/ U0 d) u# u+ p' L0 v% b
    5、常用于语音识别、机器翻译等
    + q$ h* \0 L7 n7 V1 h( @缺点:
      K/ F, t3 k9 b+ u& e# w: ~- G1、结构学习NP难,通过评分搜索方法缓解
    , l4 Z- a2 |, U3 u6 `& ?( g; ^2、推断算法的收敛速度较慢# t; @% e% V& w( N- t: N0 ]3 @
    2 \2 n2 L9 Z* n! t) a
    决策树(decision tree); Q5 B4 Z2 [! e: v/ z0 ^" C
    决策树通过信息纯度(信息增益、增益率、基尼指数等)来决定结点的生成,通过剪枝来缩小决策树的尺寸以及缓解过拟合。是一种非参数学习算法。3 H  ?  U0 F' t  W
    优点:
      R  _1 w; r, c- k1、计算量较小- [/ q6 s) E, ?. ?6 {1 ~
    2、清晰表达属性的重要程度
    2 w  o! s" O- `+ X5 M- B# r6 `3、可增量学习对模型进行部分重构
    * t6 Z. K. H1 x/ s, d% a4、不需要任何领域知识和参数假设# B9 f( {, q! c1 B! G
    5、适合高维数据3 d9 o- B" O0 L* Y
    6、随机森林是基于决策树的集成学习策略,随机森林鲜有短板
    7 B+ l- t8 J. v- u# d5 J# W( W缺点:$ z* l: C. l- n" ~1 V; H
    1、没有考虑属性间依赖
    ! t  o3 m% M% V, {2、容易过拟合,通过剪枝缓解
    , M/ l" l+ n0 V5 z' s7 s3、不可用于推测属性缺失的样本
    6 _. x' W4 N: K: `( q8 _3 Q& J; q* j* k, [5 B3 o7 N5 Z" E
    支持向量机(SVM)
    - G& R5 j$ Z/ j+ E% k0 d  r基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开,是一种针对二分类设计的算法,但稍加改造为支持向量回归即可用于回归学习。  m4 ^$ ?, f6 Y3 p4 P& n0 U
    优点:5 _3 X1 M% b3 y0 q( i8 }; M( t
    1、可解决小样本的机器学习任务" v: [0 u$ {9 B* m0 M' h
    2、可解决高维问题4 X  n# @0 H! S8 `- n
    3、可通过核方法解决非线性问题' t! M& Q) d2 N! J
    缺点:1 ~0 Y. U: c! \% ~
    1、对缺失数据敏感
    6 q/ H& p: M4 p  b. ~2、对于非线性问题,核函数方法选择一直是个未决问题
    . v% c' K: e1 a/ W$ _- o6 C; X; ]# C
    ' ~% |. u$ _9 ^5 S0 L' }7 b神经网络
    ) h4 o% L9 i' \. U9 [5 d* G" y/ g优点:
    0 o0 ~/ `# I0 G& R- m# h1、分类的准确度极高
    # n# a+ k$ K& O! k2、可解决复杂的非线性问题
    8 _7 Q7 j. ^7 P. @8 b; D3、对噪声神经有较强的鲁棒性和容错能力' A, c. H/ r0 m0 Q! X
    4、并行分布处理能力强,分布存储及学习能力强5 K) M8 Z& a+ Y" u" }6 W# ]
    5、常用于图像识别* e3 p0 z% M5 R; ^' b! V
    6、数据量越大,表现越好' Q( L& g6 d0 X2 P) ?7 r$ B# n  n  R
    缺点:( m# x$ B9 ~& x
    1、黑箱模型,难以解释
    ' y6 F7 m" B, @2、需要初始化以及训练大量参数,如网络结构、权值、阈值,计算复杂
    2 Q2 t% f! b( ~% z1 j; V8 f! i" P3、误差逆传播的损失
    0 o1 A' K) }8 R0 C. G4 M4、容易陷入局部最小# |, M( k. m4 u! y% ]
    7 }: Y' U, Q# K" ~! o; M/ Y
    词向量(word2vec)9 x0 q6 z+ {' }) v; E4 q  n4 |& k$ x
    将文章的每句话当成一行,将每个词用符号隔开(如使用中文分词工具jieba),根据上下文,可以找出相似词义的词。
    : K. [6 n4 N' h! a. L比如:我 喜欢 你,我 爱 你,我 讨厌 你。根据上下文我和你,可以找到喜欢的相似词,有爱和讨厌。
    7 w8 o. ~% q, q) z" H/ h再一般地如:1 2 3 X 4 5 6,1 2 3 Y 4 5 6。根据上下文1 2 3和4 5 6,可以找到X和Y相似。5 r- u: ~8 N- r& K# j
    gensim是一个很好用的Python NLP的包,不光可以用于使用word2vec,还有很多其他的API可以用。它封装了google的C语言版的word2vec。
    2 f. Y" V7 Z" z& S1 n- a8 g; w
    . c# U$ T1 ~  O1 G/ Q& ik近邻分类(kNN)' s2 x! Y* H5 j' D5 s
    基于某种距离度量找出训练集中与其最靠近的k个训练样本,或者指定距离e之内的训练样本,分类任务中通过投票法(以及加权投票等)将出现最多的类别标记作为预测结果,回归任务中则使用平均法(以及加权平均等)/ {, }; ^. i2 b, t  D* p
    优点:
    ) M5 s4 u0 A# Y9 O& A1、思想简单,易于理解,易于实现,无需估计参数,无需训练;
    7 U4 i& _4 D4 V) t9 R2、适合对稀有事件进行分类;
    ; d6 \0 W6 }& B4 |3、特别适用于多分类问题# K/ q& U* R( V; o4 @0 R. y* t
    缺点:
    * E  B- B9 S$ c  y# z1、需要计算出待测样本与所有样本的距离,计算量大8 D$ J' z, R$ `
    2、样本不平衡时影响大
    " _1 ?& W* C5 }8 g% F# ?1 D3、适用的特征维度低
    7 P/ J" C, e; y
    % N$ P. I, T: x5 t2 k$ p8 c线性模型! X, }! B$ ^: j+ D$ \) K
    优点:
    $ Q( D0 U3 B# |, X' _5 g1、算法简单,编程方便3 C& n, g- g$ _) d0 `4 q  f1 j& o
    2、计算简单,决策速度快
    . I5 o( G. J' y5 f: `+ Q. [' l缺点:1 G( Q* f# P" c1 @; ^; T
    1、拟合效果较差3 y. V! Q5 Y; t3 v2 I! I1 e5 K9 L

    7 L& v* R0 g/ o1 V* U5 t. i0 {2 r高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比
    3 O2 Z: S9 T7 ?k-means是高斯混合聚类在混合成分方差相等、且每个样本仅指派给一个混合成分时的特例,因此k-means计算简单,但效果不如高斯混合聚类
    . _% K( z' W5 z. {# M由于计算太过复杂,高斯混合聚类并不常用,推荐使用k-means++(与k-means随机选定不同,k-means++初始选定的几个样本距离尽量远,这样能更快得出分簇结果)等k-means变种。
    4 _1 h6 ^1 H* f7 O) H0 E
    ; B8 z4 S; U* V/ {7 ?0 }关于学习算法的性能实验结果
    ; D2 v8 P% B3 P! n& v8 H  l, S点击查看原文
    ) c& A% s2 t3 o3 F) m0 X: w
    $ t" u; B# Q9 ]6 N, W/ n0 j, I0 i14年的时候有人做过一个实验[1],比较在不同数据集上(121个),不同的分类器(179个)的实际效果。# Z" @& \( h  z8 w; x5 l
    论文题为:Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?0 X' y+ |$ q" e  g4 j1 K4 g) _& p* Q
    没有最好的分类器,只有最合适的分类器。
    5 w2 c/ c- m# S) h/ l( t1、随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。
    * |3 R8 q4 o5 e9 F* z6 H2、SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。
    0 b3 h4 l0 @  Y4 ^; W6 V. K3、神经网络(13.2%)和boosting(~9%)表现不错。2 W' y9 N  Q0 \% x- ^4 C8 b: z5 c
    4、数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM[2]。9 l$ s) U! R6 x1 y: W# G
    5、数据量越大,神经网络就越强。" n5 r6 Q$ O/ E1 j
    ————————————————* z# c' K, K  V( H0 r" o7 w8 [: k0 y3 i
    版权声明:本文为CSDN博主「路飞的纯白世界」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    ' C  y* }' t8 o( f" |5 o原文链接:https://blog.csdn.net/u010921136/article/details/90668382
    . X, D2 T3 P% O- i/ f# d$ h* Y' h' Z; a8 r/ q5 u- G1 @
    ) l  B. }8 M7 N! C: ^; A$ E
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-9 14:29 , Processed in 0.360453 second(s), 51 queries .

    回顶部