QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1965|回复: 0
打印 上一主题 下一主题

各类机器学习算法的优缺点和适用场景汇总

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2021-4-10 11:24 |只看该作者 |正序浏览
    |招呼Ta 关注Ta
    ; ^- H7 q- X- d. O
    各类机器学习算法的优缺点和适用场景汇总
    % C# ]4 n4 R' M5 O目录6 n' p% j4 L6 u) r
    朴素贝叶斯分类器(NB:naive Bayes classifiers)% q* d: ~5 Q1 e- N( Q1 h
    半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)9 A/ g3 L5 g. j
    贝叶斯网(信念网)
    ; w# B8 e% M' c4 E决策树(decision tree)& T! J4 x. w# C! C- W# b
    支持向量机(SVM)2 N- E) A" J3 k6 A
    神经网络/ c. b: O! E9 o$ R5 r' ^( n6 y
    词向量(word2vec)/ g4 c, e, n9 c
    k近邻分类(kNN)
    . ?' N  N( g# ~/ S. b( J线性模型  E; Q% J$ {$ M# {6 l
    高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比
    . B+ a( d' L7 C6 {) w关于学习算法的性能实验结果/ w% e7 S4 X7 [. |% K8 r: j8 {
    朴素贝叶斯分类器(NB:naive Bayes classifiers)& F0 Z- N  b$ \, F9 e
    顾名思义,其适用于分类任务、并且假设每个属性独立地对分类结果发生影响,然而现实中各个因素往往并不独立,那是否就无法解决问题呢?  v# Q, `% B* W) L, N- n6 B
    事实上并非如此,相反,朴素贝叶斯分类器在很多情况下都能获得相当好的性能,一种解释是:无需精准概率值即可导致正确分类结果;另一种解释是:若属性间依赖对所有类别影响相同,或依赖关系的影响能相互抵消,则属性条件独立性假设在降低计算开销的同时,不会对性能产生负面影响。% w) ~8 ^( K, P3 |5 z# W
    6 V% [6 T& B2 U+ Z6 [
    优点:
    3 ]) H! e( J- ]# u0 [1、计算量较小
    / w" g( H5 M. L  ?; @: }2、支持懒惰学习、增量学习7 v( s9 v0 D( |6 x0 Y/ |
    3、对缺失数据不太敏感
    3 Z1 N# I+ f/ i  O) J' T( Y+ R; G4、推断即查表,速度极快。
    # U4 E8 x1 T  a7 _1 ]- t缺点:
    5 {- b, [+ |7 h7 Y7 ]1、没有考虑属性间依赖
    + ?6 {3 G! b0 h) [' x, n) p) e2、通过类先验概率产生模型( a2 |/ ]6 p! u* _$ B! ?% g8 S* e+ W
    ( a& C% I8 S4 f. U! r: c' m
    半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)
    ! V7 w3 s) m( U& l6 X: U. V相比NB的不考虑依赖,SNB则是考虑了一个(独依赖估计策略:ODE)或多个(多依赖估计策略:kDE)属性依赖  t& l3 U& H; v- d
    优点:
    : d6 K! J# z: T6 }: ?1、考虑了一个或多个比较强的属性依赖关系,泛化性能可能得到提升
    9 Y9 x0 I+ s) O8 b- j3 }" o2、计算开销不大
    2 ]4 e; l6 X8 R% ]! m# X3、同样支持懒惰学习、增量学习
    - d6 v9 Y9 m/ _; U缺点:
    " C0 W2 F$ E  f  g: g  r7 |8 A1、通过类先验概率产生模型
    " I3 W4 Y1 ^' t( y9 q: c% x3 q" g3 i5 _2 l- E) [, T4 q
    贝叶斯网(信念网)
    : W9 H. ], J' s+ A* @* e# u贝叶斯网借助有向无环图刻画属性之间的依赖关系,通过吉布斯采样或者变分推断等方式来近似推断后验概率。, N) m9 ]: `4 [
    优点:
    0 M( v% t9 R3 o8 G( ], r9 M1、更加完整地考虑了属性间依赖关系,泛化性能将进一步提升
    ' }3 E4 v) C8 I2、近似估算后验概率+ E# {) D6 X6 ~) Y+ l& f7 E
    3、可用于推测属性缺失的样本
    9 A  G: M. T" _0 _4、良好的可解释性8 J1 V3 K" W: J+ R
    5、常用于语音识别、机器翻译等
    3 f$ S! O( [1 v. B) a, e2 K2 e1 e缺点:
    ' g' I6 P+ F% \2 f4 q8 _* W1、结构学习NP难,通过评分搜索方法缓解. d/ P6 x7 y: ^1 A" o
    2、推断算法的收敛速度较慢
    8 n8 e' T% _: f6 w( L1 d+ f8 ~8 R; j% e& n/ a- S- a
    决策树(decision tree)
    # x& p4 j  s4 H4 P' m& G6 {决策树通过信息纯度(信息增益、增益率、基尼指数等)来决定结点的生成,通过剪枝来缩小决策树的尺寸以及缓解过拟合。是一种非参数学习算法。
    % Q; d2 j* l5 U优点:& K0 [) W% k+ q
    1、计算量较小& `( @+ }8 i8 `
    2、清晰表达属性的重要程度
    ; p0 d4 F$ D% C* E3 B$ u3、可增量学习对模型进行部分重构4 a$ F0 d4 m- j
    4、不需要任何领域知识和参数假设
    * L- Z& L8 ~* a5、适合高维数据
    ! a" Q" E" r: T" V; u' w0 _6、随机森林是基于决策树的集成学习策略,随机森林鲜有短板
    ( j  `/ `1 g9 K' C* }' F缺点:  f/ M8 `7 M; z+ _7 h! G4 z  k. j
    1、没有考虑属性间依赖
    $ E0 C4 S- l- p9 ^' X2、容易过拟合,通过剪枝缓解
    # U) d, q2 G; R5 M+ B. j+ u& Z+ t/ B8 }3、不可用于推测属性缺失的样本, j  [  h$ @; R
    7 Z* |3 J4 R& _1 Z" X. b- R9 k
    支持向量机(SVM)/ f- `! {' i7 o4 d5 y! \, n9 a+ D
    基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开,是一种针对二分类设计的算法,但稍加改造为支持向量回归即可用于回归学习。
    . |' [" z* y% ?* R* v: ]优点:0 l7 @: A+ D3 r5 V1 f1 Z) P  [$ Q& o
    1、可解决小样本的机器学习任务3 \" Q1 j" d4 l6 y+ f! m
    2、可解决高维问题
    7 _- A; {4 D0 }8 \) D3、可通过核方法解决非线性问题# Z$ \+ E- q, t9 Q
    缺点:
    ; f' \% k, ~0 K4 y5 y& x' ~1、对缺失数据敏感/ ^* D9 r+ S8 x; v% n5 s! a, V
    2、对于非线性问题,核函数方法选择一直是个未决问题
    - M# j: X9 Z$ g$ t, M+ A$ `: `
    0 V2 F, _5 X( z* P2 W) s神经网络/ R. M) N3 {3 b
    优点:
    6 q) r* Z* A' [" k3 z1、分类的准确度极高
    ; H6 m9 I! C1 @$ w4 }2 d1 U, {2、可解决复杂的非线性问题4 b$ p' r8 g0 M+ L8 d$ a. D0 X$ P" v
    3、对噪声神经有较强的鲁棒性和容错能力
    $ E. F0 z8 z+ T4 f2 ~/ ^3 p4、并行分布处理能力强,分布存储及学习能力强! c1 l6 P  f+ \, ^) {4 @
    5、常用于图像识别3 A3 O) s; V3 n& l0 }. T
    6、数据量越大,表现越好
    8 l8 x5 x2 _6 u+ a% @缺点:
    & W9 m: m. O0 z  U( m5 H* h- w$ D/ f8 W1、黑箱模型,难以解释  H; N  ^$ B& x3 v! i
    2、需要初始化以及训练大量参数,如网络结构、权值、阈值,计算复杂
    ; j3 ]/ Y. H; f  `. Z# l. p3、误差逆传播的损失; D/ N$ W, R+ V  l6 f) x
    4、容易陷入局部最小( o' O1 o! I6 x, g
    8 o! Y0 X, b& J; v0 g# r* v" ^3 y6 t
    词向量(word2vec), Q5 M# L- m4 b9 D# |: J
    将文章的每句话当成一行,将每个词用符号隔开(如使用中文分词工具jieba),根据上下文,可以找出相似词义的词。. Y$ V5 ?% {3 t$ y/ R% ~6 J1 B  K) p% [
    比如:我 喜欢 你,我 爱 你,我 讨厌 你。根据上下文我和你,可以找到喜欢的相似词,有爱和讨厌。
    4 s( g  V2 a# `6 q再一般地如:1 2 3 X 4 5 6,1 2 3 Y 4 5 6。根据上下文1 2 3和4 5 6,可以找到X和Y相似。: _+ Y. z/ `5 a* z
    gensim是一个很好用的Python NLP的包,不光可以用于使用word2vec,还有很多其他的API可以用。它封装了google的C语言版的word2vec。# e, m$ I7 ~" J1 C. D9 w' M

    2 T- g$ l. V3 `4 E% J. _/ Wk近邻分类(kNN): }& ^6 ?2 Q0 `4 ^: H
    基于某种距离度量找出训练集中与其最靠近的k个训练样本,或者指定距离e之内的训练样本,分类任务中通过投票法(以及加权投票等)将出现最多的类别标记作为预测结果,回归任务中则使用平均法(以及加权平均等)) ^) {+ B3 T, J5 e
    优点:. D% [) M) x' N: j; y
    1、思想简单,易于理解,易于实现,无需估计参数,无需训练;
    0 x- b- ~, Y! D( K# Z7 T: P0 K2、适合对稀有事件进行分类;$ _5 {: \5 k, I; p% |: w
    3、特别适用于多分类问题4 L0 U3 ~# [4 I% A6 M/ P( ]
    缺点:
    " z. E$ u8 P5 l3 n1、需要计算出待测样本与所有样本的距离,计算量大
    ( l' h( S1 E, q" \% i( T2、样本不平衡时影响大) e2 y  L7 J. u! E3 t( a
    3、适用的特征维度低
    8 \' P' v9 p' g5 h: P  J, z' X
    / L) Z' |2 [! N6 L线性模型5 Y0 U: u7 t+ W3 n# e+ N2 a
    优点:# t* J! c) b$ m0 F
    1、算法简单,编程方便
    9 D  [, M3 y2 P. R7 I; F- v2、计算简单,决策速度快; [+ Y* `  }1 R0 y) W
    缺点:
    1 O+ s. ~; t% P, N) ^1、拟合效果较差3 w, P7 w& _: T. h, B6 w
    6 O7 d  v0 |/ o" D) K3 g6 ~2 e
    高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比
    " m5 d4 L+ ]' }: |6 i/ ]k-means是高斯混合聚类在混合成分方差相等、且每个样本仅指派给一个混合成分时的特例,因此k-means计算简单,但效果不如高斯混合聚类
    " e, G$ _" q& M& ~$ c& v由于计算太过复杂,高斯混合聚类并不常用,推荐使用k-means++(与k-means随机选定不同,k-means++初始选定的几个样本距离尽量远,这样能更快得出分簇结果)等k-means变种。, M# b# E' [. s. k/ C2 `
    : p2 K" n8 p' `  I' X
    关于学习算法的性能实验结果- U# L# r! M1 y; t/ H+ {4 e3 ~
    点击查看原文, F; [  h7 n7 F% H# q/ y, v4 q4 h
    8 b5 E% {& W/ t5 m
    14年的时候有人做过一个实验[1],比较在不同数据集上(121个),不同的分类器(179个)的实际效果。/ r% f$ `: C! w+ j; c0 m& ?
    论文题为:Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?; H9 }  B, l* v2 w/ [; K
    没有最好的分类器,只有最合适的分类器。
    0 L- ~4 q( ~4 F7 p1、随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。  b- K" r7 m0 M8 L) d; L6 ~
    2、SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。
    % A; N& d6 Q) V1 S" W% t4 ~- u. ^3、神经网络(13.2%)和boosting(~9%)表现不错。
    / X9 a# h: D& R/ w& O. x# J4、数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM[2]。) d/ B- a; l0 w; j2 {; d3 W
    5、数据量越大,神经网络就越强。) t( S! |) y0 \% k7 E
    ————————————————0 ^& C( j6 Q3 E" }" k/ G
    版权声明:本文为CSDN博主「路飞的纯白世界」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    + W9 ]$ ?& }9 I4 D- r原文链接:https://blog.csdn.net/u010921136/article/details/906683825 d- k4 S0 J- p4 r$ m$ C, N
    0 e; U0 q$ `! t* N

    6 S0 j9 K" @4 l" s1 |) `' n3 u$ C5 r
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-20 17:31 , Processed in 3.720066 second(s), 52 queries .

    回顶部