QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2005|回复: 0
打印 上一主题 下一主题

各类机器学习算法的优缺点和适用场景汇总

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2021-4-10 11:24 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    2 p) K( ~' B% n+ j( F" z各类机器学习算法的优缺点和适用场景汇总' I/ Q: Q' n& [/ x
    目录  {" K5 |2 ~7 ?4 q1 j
    朴素贝叶斯分类器(NB:naive Bayes classifiers)' i1 y2 l2 c6 ^# D. d4 s" m6 \
    半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)
    6 F0 [: j2 h6 z; o2 b$ K贝叶斯网(信念网)
    3 _! O7 \* T' G  h7 S( l. X决策树(decision tree)
    & [, f5 G9 Y+ p4 T! Q- g9 _  m支持向量机(SVM)
    / `- U! T# q5 I' X  T: B6 ]神经网络
    * r! K* q6 B# D1 G5 ~% K词向量(word2vec)
    5 ]4 U: w( S. v; Z% n, D4 xk近邻分类(kNN)* ?* s* n( @! y
    线性模型
    - b4 |7 C8 [' U; Q; X. o( U高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比! C: l; j6 W# Q$ S" ]
    关于学习算法的性能实验结果
    5 W' V' \6 n! d9 r9 [  B朴素贝叶斯分类器(NB:naive Bayes classifiers)9 x( Z! m# T  ?
    顾名思义,其适用于分类任务、并且假设每个属性独立地对分类结果发生影响,然而现实中各个因素往往并不独立,那是否就无法解决问题呢?
    ' O) V, v. z( ]  a% j事实上并非如此,相反,朴素贝叶斯分类器在很多情况下都能获得相当好的性能,一种解释是:无需精准概率值即可导致正确分类结果;另一种解释是:若属性间依赖对所有类别影响相同,或依赖关系的影响能相互抵消,则属性条件独立性假设在降低计算开销的同时,不会对性能产生负面影响。
    ) o3 ?( K* _2 B& p! |
    4 b3 \4 |( e3 n/ K# y2 Y) D优点:
    * H, r, B, i  t" |1 e+ n1、计算量较小% Q; ~# B6 t( @: I) P+ n+ Q
    2、支持懒惰学习、增量学习
    . b; I- K/ W" @+ I3、对缺失数据不太敏感
    ! f0 `* t7 |$ `' r4、推断即查表,速度极快。
    6 R$ b2 s0 I! n  u# [缺点:9 U: N: c5 |/ |7 o4 R
    1、没有考虑属性间依赖& V7 ]9 @; X9 _& {0 x) v/ r
    2、通过类先验概率产生模型6 d8 g, a2 e' q. C, C3 K0 H
    8 Y8 F" b! V3 `& e+ A
    半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)8 Y. U- [) @% G7 _+ W
    相比NB的不考虑依赖,SNB则是考虑了一个(独依赖估计策略:ODE)或多个(多依赖估计策略:kDE)属性依赖* c* I, O  \) Y5 T- N" r
    优点:
    ; ^0 w2 ?$ w7 q$ E) {  q8 L1、考虑了一个或多个比较强的属性依赖关系,泛化性能可能得到提升
    0 x! ^" Z7 O) @" b2、计算开销不大; h6 W5 W; x! @# Q8 v1 i+ i7 X/ x
    3、同样支持懒惰学习、增量学习
    * i4 _3 ]3 @' v+ J" r8 @( ]* Z* o缺点:
    9 \) J$ |! M: u9 Y1、通过类先验概率产生模型% p4 T; C: r" }7 ]5 _
    - ^! i6 a; Q& a" X3 g: u7 U, r
    贝叶斯网(信念网)
    " N5 L: `: \9 R: v贝叶斯网借助有向无环图刻画属性之间的依赖关系,通过吉布斯采样或者变分推断等方式来近似推断后验概率。% W" C9 [; ^! y! J' j2 f" w
    优点:
    $ \6 |" U% i; q- j1 ]/ v1 k$ ^1、更加完整地考虑了属性间依赖关系,泛化性能将进一步提升' f5 I) ^8 ]: ]$ Q$ D
    2、近似估算后验概率5 P5 r! L# b, j7 o* @
    3、可用于推测属性缺失的样本; Y$ X9 G7 G& u# r. t
    4、良好的可解释性
    3 L: l2 G( u/ S! i0 M5、常用于语音识别、机器翻译等3 ~/ O9 H) k3 G2 p: ~/ O, r
    缺点:
    ! ~3 j7 I. u" ~+ ]( @1、结构学习NP难,通过评分搜索方法缓解+ K. d5 R  k. d' Q# _
    2、推断算法的收敛速度较慢
    , |6 _: ^8 U0 I  E
    " h# x! V* f7 u决策树(decision tree)7 O, x* ~3 ~# c2 z( ?
    决策树通过信息纯度(信息增益、增益率、基尼指数等)来决定结点的生成,通过剪枝来缩小决策树的尺寸以及缓解过拟合。是一种非参数学习算法。
    . ^* k  T: X' i7 L优点:
    ) p# u% u2 Q9 r: S) E8 N  |1、计算量较小/ C' C+ A  h% u- D
    2、清晰表达属性的重要程度
    8 U5 D5 i( F. C% a3、可增量学习对模型进行部分重构
    / L% q, u3 v% g' H( L+ C4 D4、不需要任何领域知识和参数假设
    6 g! P+ Y4 K0 k6 E; F( `1 T5、适合高维数据
    9 y: v0 M5 O- L4 c* G* B; E8 P6、随机森林是基于决策树的集成学习策略,随机森林鲜有短板& f* d# \8 q* g  T
    缺点:
      Z( F, }9 I- L1、没有考虑属性间依赖
    & ?9 ~0 d' h, G5 j* B, O% v7 ~2、容易过拟合,通过剪枝缓解
    9 d$ W) g+ H' P) P3、不可用于推测属性缺失的样本5 `4 G; Z0 \3 X0 K) u

    * }3 B4 V  B4 Y% }8 {支持向量机(SVM)& l; o7 ~7 U6 z# v, {
    基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开,是一种针对二分类设计的算法,但稍加改造为支持向量回归即可用于回归学习。
    ; w* t. e! O* V# j5 j. k: Y$ |4 ^优点:
    # W, T; ~9 @7 S5 z1 R1、可解决小样本的机器学习任务2 ^$ ~- ]" O8 H8 I
    2、可解决高维问题$ L) R- h7 G' `" D7 O. S
    3、可通过核方法解决非线性问题
    6 i+ J, Z' A0 o; z7 d' Z% R, R缺点:
    5 B! Y, |9 O& T- O! [7 V1、对缺失数据敏感7 N  h/ ?5 v6 [. w( S5 I# U
    2、对于非线性问题,核函数方法选择一直是个未决问题# \# o* [0 s* }( {* g. m8 s
    ( Q1 x$ I/ x7 A4 l# p. A2 o$ Z+ \6 `
    神经网络
    # I) _3 }+ @6 D5 P& i" g) P- W优点:
    & [& i- }2 Y( X0 U/ S/ @1、分类的准确度极高
    7 H" h) x( [* n$ h" S9 \2、可解决复杂的非线性问题1 E+ t  M( N4 [% w
    3、对噪声神经有较强的鲁棒性和容错能力$ K; c+ i0 i/ |, Y5 M) a% _
    4、并行分布处理能力强,分布存储及学习能力强
    7 `) V8 T4 n" w$ R. T5、常用于图像识别
    / y; w- U7 z8 `. X; j- v6 a6、数据量越大,表现越好1 J1 k( d% r; Z9 N
    缺点:
      Z) u; r' D1 x8 @1、黑箱模型,难以解释
    ( l' [+ H; {* l2、需要初始化以及训练大量参数,如网络结构、权值、阈值,计算复杂# y5 {! A, p; H
    3、误差逆传播的损失
    8 N  {# h" H8 h2 s  Q4、容易陷入局部最小
    ' {! t" \: y/ S8 D6 Q. K7 X9 B; d* K) {7 {  X
    词向量(word2vec)! z9 b" o8 v: s4 M! \
    将文章的每句话当成一行,将每个词用符号隔开(如使用中文分词工具jieba),根据上下文,可以找出相似词义的词。
    9 A9 K( V4 d! b* D比如:我 喜欢 你,我 爱 你,我 讨厌 你。根据上下文我和你,可以找到喜欢的相似词,有爱和讨厌。4 ~( v3 W9 J" N7 w8 p2 ?6 }; B
    再一般地如:1 2 3 X 4 5 6,1 2 3 Y 4 5 6。根据上下文1 2 3和4 5 6,可以找到X和Y相似。  X$ O* p( J; b9 n& f+ X5 ^
    gensim是一个很好用的Python NLP的包,不光可以用于使用word2vec,还有很多其他的API可以用。它封装了google的C语言版的word2vec。
    & g" `) n5 P2 k, n2 A; I
    3 u/ @/ p, b7 P3 \9 h; l  N6 gk近邻分类(kNN)" [3 K8 f- n- C
    基于某种距离度量找出训练集中与其最靠近的k个训练样本,或者指定距离e之内的训练样本,分类任务中通过投票法(以及加权投票等)将出现最多的类别标记作为预测结果,回归任务中则使用平均法(以及加权平均等)
    0 }: e& D5 W0 N% D; S0 G* T! d. q优点:" v' K" F/ U- U* C. r
    1、思想简单,易于理解,易于实现,无需估计参数,无需训练;. H4 s% {3 L3 p9 K; c4 t2 o- A
    2、适合对稀有事件进行分类;
    & ^' O' H, ~' J8 V. {! d3、特别适用于多分类问题
    6 W* K6 s9 \. K5 L6 B& ?缺点:- a8 z( L) @: T* _% x# l. I  G
    1、需要计算出待测样本与所有样本的距离,计算量大
    - Q# V. y! d9 a4 Z5 ~, @2、样本不平衡时影响大3 t' b: Q3 h# l) c3 J
    3、适用的特征维度低
    ( H4 M" U9 I( \8 \- V  U1 X9 {6 E8 j! e1 C8 \& y
    线性模型# N& s8 Q0 x( L
    优点:
    , f) C: A* M# s1、算法简单,编程方便
    . A8 C. m& M. X9 i; Q2 ?2、计算简单,决策速度快
    " d7 n6 X2 ^! f- o% r; E缺点:; H5 U7 K5 t! L3 N) r
    1、拟合效果较差4 H- k9 i: X( C% K: H# u# n
    * p  W# s% }# m; k
    高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比9 B# y! w( i9 L+ B0 E
    k-means是高斯混合聚类在混合成分方差相等、且每个样本仅指派给一个混合成分时的特例,因此k-means计算简单,但效果不如高斯混合聚类8 e; v- ]1 b3 g! W
    由于计算太过复杂,高斯混合聚类并不常用,推荐使用k-means++(与k-means随机选定不同,k-means++初始选定的几个样本距离尽量远,这样能更快得出分簇结果)等k-means变种。: w; l# N3 \# v2 C1 v; F: M
    5 S1 u& V2 `% ^8 [
    关于学习算法的性能实验结果/ e  K4 A4 l6 k! i( H% F, a
    点击查看原文
    , r' `: V7 D, U. Y+ n: P1 V; {4 w
    , w( d+ Z, y$ a  F  x' w' K14年的时候有人做过一个实验[1],比较在不同数据集上(121个),不同的分类器(179个)的实际效果。  q, P9 E/ `) F6 E) E) t
    论文题为:Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?
    2 Y" A0 H" ]$ X% S3 B没有最好的分类器,只有最合适的分类器。
    2 k5 m% A4 I& v4 u; q* s1、随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。
    / E# K% Z6 t, Y# O2 _4 t; \. }2、SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。
    % i( V3 L: u8 S# y# p3、神经网络(13.2%)和boosting(~9%)表现不错。
      h4 U6 U3 K2 X# |# ~6 y4、数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM[2]。6 P" w4 p8 G  D
    5、数据量越大,神经网络就越强。
    1 t5 I2 z, M8 G# E0 l1 d8 M————————————————
    3 }/ e% U4 N4 W. S- s; p版权声明:本文为CSDN博主「路飞的纯白世界」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    - L* V6 y5 }; K  |# i+ ^9 ]原文链接:https://blog.csdn.net/u010921136/article/details/906683825 r+ ], X0 k) z
    " l1 z: u. ?, D- D! X
    4 z. U+ f0 H4 }. }
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-9 19:52 , Processed in 0.422718 second(s), 51 queries .

    回顶部