QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1998|回复: 0
打印 上一主题 下一主题

各类机器学习算法的优缺点和适用场景汇总

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2021-4-10 11:24 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    $ O# K, X" D4 I: [6 Y& g2 ~
    各类机器学习算法的优缺点和适用场景汇总
    6 D9 ?* k: u8 f9 I( O- m  L目录
    : @5 X3 N; I: h- H' Z朴素贝叶斯分类器(NB:naive Bayes classifiers): t- R( D6 w7 q2 w
    半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)
    3 Q; y9 \5 |! X* N贝叶斯网(信念网)
    . m: x* s9 D9 W7 u决策树(decision tree)
    - S1 X/ E/ o* P1 |, C支持向量机(SVM)
    7 G$ s' D) n$ A$ s4 ~神经网络
    $ j) n4 D0 L% S+ w8 {词向量(word2vec)4 N8 p+ F. V( S, N- ?
    k近邻分类(kNN)
    4 V( q2 a1 m) l- F$ O% L线性模型4 [5 l$ g8 j5 i
    高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比
    % p! W$ E! K4 \5 K关于学习算法的性能实验结果
    4 z4 P% G( z3 O" m2 A3 F朴素贝叶斯分类器(NB:naive Bayes classifiers)
    ; Q* t+ X6 l1 k% V/ w顾名思义,其适用于分类任务、并且假设每个属性独立地对分类结果发生影响,然而现实中各个因素往往并不独立,那是否就无法解决问题呢?
    ' t% |0 g) f& M2 {) Y事实上并非如此,相反,朴素贝叶斯分类器在很多情况下都能获得相当好的性能,一种解释是:无需精准概率值即可导致正确分类结果;另一种解释是:若属性间依赖对所有类别影响相同,或依赖关系的影响能相互抵消,则属性条件独立性假设在降低计算开销的同时,不会对性能产生负面影响。# i% K. ^* \& x8 X( |+ S5 h

    ( J, t. g) I) H, n- n; Q优点:
    / v, S: X9 I  O1、计算量较小# ?: y) C. N, K- h
    2、支持懒惰学习、增量学习
      M8 d# {5 W# a3、对缺失数据不太敏感
    * x1 K( P  q% B9 W4、推断即查表,速度极快。
    & f$ z  D3 J! h, T缺点:
    , f- R+ Z% L6 ^1、没有考虑属性间依赖3 o, G) Z  y, L
    2、通过类先验概率产生模型
    ' L9 y" c3 W/ W  `+ a3 e0 R- i9 h' F6 Q( N
    半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)
    : {' O; m  J3 T, n相比NB的不考虑依赖,SNB则是考虑了一个(独依赖估计策略:ODE)或多个(多依赖估计策略:kDE)属性依赖( B" l  |" y$ n4 ^( s
    优点:# |# N$ ^% V! k
    1、考虑了一个或多个比较强的属性依赖关系,泛化性能可能得到提升
    7 ^) Q3 S* ^" r) P2 J0 G2、计算开销不大
    2 ^1 b- A! U( ^( Q1 U: ~3、同样支持懒惰学习、增量学习+ r2 p1 z" N, e) z5 e
    缺点:0 @* E5 \6 ?6 E
    1、通过类先验概率产生模型
    7 q+ J2 P& o: D+ Q4 d
    % i7 [' I: x# O# l/ l贝叶斯网(信念网)
    , q0 f% P9 {. l/ m! K贝叶斯网借助有向无环图刻画属性之间的依赖关系,通过吉布斯采样或者变分推断等方式来近似推断后验概率。7 M% b# _4 I& Z% b" V* q% k
    优点:
    . f; Z1 J; R9 f1、更加完整地考虑了属性间依赖关系,泛化性能将进一步提升  a4 p$ @" X) O# q4 g# }1 R3 h
    2、近似估算后验概率: o7 x# a3 I; [! Z/ e) q+ O
    3、可用于推测属性缺失的样本
    8 N3 p4 @8 ]0 d/ }2 T$ B, V4、良好的可解释性
      n" i4 b# |# e5 ]* l5、常用于语音识别、机器翻译等3 ^/ B8 }- J' w) \  e0 c/ E
    缺点:6 s/ I( a: C$ X* o- L: a' k& f
    1、结构学习NP难,通过评分搜索方法缓解
    / R2 N' }  w2 o0 o9 a& ]2、推断算法的收敛速度较慢
    ) T" R2 ?! e* n9 L- G- K- H) ^4 M9 f5 d3 `! X! _
    决策树(decision tree)( i$ e* P* W4 _5 r! w5 H
    决策树通过信息纯度(信息增益、增益率、基尼指数等)来决定结点的生成,通过剪枝来缩小决策树的尺寸以及缓解过拟合。是一种非参数学习算法。  e6 I3 G! [% N$ O1 V8 c% O! m4 ?' z
    优点:3 D0 {/ w$ ~$ I6 G! q  s$ `
    1、计算量较小
    / n8 b7 P9 Y- Q1 F0 A6 V# s( c2、清晰表达属性的重要程度3 v! a( P  m& s0 {/ d9 |  G
    3、可增量学习对模型进行部分重构. D8 }4 O( l& X. r% m8 M2 t
    4、不需要任何领域知识和参数假设* d; l/ X: s# t1 z
    5、适合高维数据9 M. c5 E, k- H1 b
    6、随机森林是基于决策树的集成学习策略,随机森林鲜有短板
    , E3 k# J" B. L) l0 u: l  H; t/ R缺点:
    ' H4 E) V$ x( x& Q+ N( S1、没有考虑属性间依赖$ {3 q; B) V5 T& `, }
    2、容易过拟合,通过剪枝缓解
    9 O. ]5 ?( U% `! b6 t3、不可用于推测属性缺失的样本" C* O. y- I; `' ~. x6 D. T, ^

    ' u, E9 m. E4 R! V( B, E9 x2 r支持向量机(SVM)0 j( `9 f; ?( n  n+ g
    基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开,是一种针对二分类设计的算法,但稍加改造为支持向量回归即可用于回归学习。
    9 |2 i2 w% c4 ~& [. L8 `4 X优点:
    3 ^( A/ n" w7 L. \7 Q5 p. n6 f( D, l1、可解决小样本的机器学习任务
    1 s- ^2 @0 Q6 w! A6 H' J2、可解决高维问题$ R! V3 @  u6 E0 c* [! s- K
    3、可通过核方法解决非线性问题
    6 S. y+ n% m# ]缺点:3 S* k- d! Q/ w0 v9 P, m/ S
    1、对缺失数据敏感
    $ w: t% \; u8 n  ~1 Y9 @) f) r" e; k% P2、对于非线性问题,核函数方法选择一直是个未决问题' `; ~- ^, n3 T5 _' d
    1 e; ?. z' A: `7 o3 L
    神经网络2 B, }1 Q1 ]7 g0 y- e/ Y9 k
    优点:
    ; p! P; p5 q9 ?7 w( h1、分类的准确度极高
    1 V  ]1 T9 q0 I* U/ e2、可解决复杂的非线性问题' ]. m2 R- g# n! o0 K4 l
    3、对噪声神经有较强的鲁棒性和容错能力
    & l3 w* W& _% Q7 o9 j  W4、并行分布处理能力强,分布存储及学习能力强# \' y% e( X6 Q% a
    5、常用于图像识别
    & y; K# y7 [# {( d# B/ N( W; c8 Y6、数据量越大,表现越好
    $ V0 `4 h% b8 C1 J% t/ d缺点:
    : k' H5 M1 o! I! W! }& X1、黑箱模型,难以解释' E6 {9 d2 X0 J, ^5 h2 ~8 X" S
    2、需要初始化以及训练大量参数,如网络结构、权值、阈值,计算复杂/ W5 C2 o. g! q; t; n" @
    3、误差逆传播的损失9 d7 h, B9 ?- c; q0 d
    4、容易陷入局部最小
    1 n, U2 }( z- U6 W, Z9 N# S+ U- C% r0 B0 o+ t* V; e
    词向量(word2vec)
    ( g% D7 A& V2 S. g将文章的每句话当成一行,将每个词用符号隔开(如使用中文分词工具jieba),根据上下文,可以找出相似词义的词。
    2 Y# |$ O% i. A! d比如:我 喜欢 你,我 爱 你,我 讨厌 你。根据上下文我和你,可以找到喜欢的相似词,有爱和讨厌。1 s' V' l# c: f- N5 P+ X, a( _
    再一般地如:1 2 3 X 4 5 6,1 2 3 Y 4 5 6。根据上下文1 2 3和4 5 6,可以找到X和Y相似。
    4 [! T7 Q, G1 C( G" Fgensim是一个很好用的Python NLP的包,不光可以用于使用word2vec,还有很多其他的API可以用。它封装了google的C语言版的word2vec。9 t: X; a+ L# U; b

    2 d5 K. b- h3 Z1 o7 h7 E: H2 hk近邻分类(kNN)
    5 J; W9 u9 t  W9 H" _* S基于某种距离度量找出训练集中与其最靠近的k个训练样本,或者指定距离e之内的训练样本,分类任务中通过投票法(以及加权投票等)将出现最多的类别标记作为预测结果,回归任务中则使用平均法(以及加权平均等)
    * j1 ]4 d5 _# a# [4 Q优点:1 r: j9 x( O0 i
    1、思想简单,易于理解,易于实现,无需估计参数,无需训练;$ y/ }! z1 K. i* ?' M9 r7 |! O
    2、适合对稀有事件进行分类;# q9 N0 R5 g! C$ p: b% {' X4 |
    3、特别适用于多分类问题
    . p# y. A) d8 m7 d缺点:
    . h! Z- K  I- c7 p8 U$ m' g1、需要计算出待测样本与所有样本的距离,计算量大
    $ S+ m0 U0 G. G) |2 @+ R2、样本不平衡时影响大' v" |$ H! k* Y" w5 b
    3、适用的特征维度低
    - A! c9 G8 O- K# }1 ^; l7 g9 Y6 c+ J5 S7 R' i* h3 d' L; Z  C  c, w
    线性模型# t% _8 I9 a9 V3 Y
    优点:- }5 m6 p' I7 v# z% K7 j# C
    1、算法简单,编程方便
    ; u, t2 w; K/ K- c  ^. P- O2、计算简单,决策速度快
    $ ~+ r) [% v3 m( u/ b  f+ c( H& @缺点:
    0 J, x8 A/ Q9 _; p3 P  @" F0 m1、拟合效果较差
    $ n1 q, h2 T5 k# e/ @! b' i. s) r1 \! [
    高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比8 _! u; P6 ^1 v& a3 |3 @( t/ X
    k-means是高斯混合聚类在混合成分方差相等、且每个样本仅指派给一个混合成分时的特例,因此k-means计算简单,但效果不如高斯混合聚类
    1 d* B3 s, L; q7 m2 [' e由于计算太过复杂,高斯混合聚类并不常用,推荐使用k-means++(与k-means随机选定不同,k-means++初始选定的几个样本距离尽量远,这样能更快得出分簇结果)等k-means变种。% e7 ]0 V# p6 \+ i9 q: `0 p! b/ A5 `5 P
    ; T+ G1 u: U4 P# C
    关于学习算法的性能实验结果
    ) o5 Y8 K' J) Z. y点击查看原文
    2 U  N( z; z3 M; p/ }
    ; V6 o* `, l) ]14年的时候有人做过一个实验[1],比较在不同数据集上(121个),不同的分类器(179个)的实际效果。
    4 S/ A6 c$ l; O论文题为:Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?
    3 G  g% d* C$ u, m& Q6 h没有最好的分类器,只有最合适的分类器。
    # o/ P' h1 _8 ?5 ^2 z: |, [1、随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。2 G" Q' x7 U; j) `; x! U6 n' t0 a
    2、SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。
    1 L5 T6 M+ `- f8 r/ t3、神经网络(13.2%)和boosting(~9%)表现不错。
    ( {! ~: P7 p, c4 Y' t) G4、数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM[2]。
    6 \6 U" W1 o$ F8 t7 B! x5、数据量越大,神经网络就越强。! S6 @7 T5 H, N2 \# d
    ————————————————' }& ~) s4 c2 S7 W
    版权声明:本文为CSDN博主「路飞的纯白世界」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    # r$ V) A( P2 m! _* _# X* e8 e原文链接:https://blog.csdn.net/u010921136/article/details/906683829 G0 [; H7 _% |  ~

    , V( B9 ~& d& b: H. h3 q/ t! }9 B3 n' _- A* ~, G4 ]1 m* M
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-9 02:56 , Processed in 3.958903 second(s), 51 queries .

    回顶部