QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1967|回复: 0
打印 上一主题 下一主题

各类机器学习算法的优缺点和适用场景汇总

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2021-4-10 11:24 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    ; U, d6 @  T) j! O1 ?% W
    各类机器学习算法的优缺点和适用场景汇总
    ' i) e' \+ k% Z& w9 I, t3 ]# k% o目录
    * W+ @# c. w( D; P朴素贝叶斯分类器(NB:naive Bayes classifiers)
    4 T+ ^9 \7 Z# o/ i半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)7 J2 C% q! W& [( ?7 k2 @/ K
    贝叶斯网(信念网)
    ( l, A0 c" L% P决策树(decision tree)
    8 ?4 C1 h# ?9 N( k/ t8 J9 b支持向量机(SVM)
    ! p; F& M4 \  C, c8 K/ m神经网络
    2 Z  E4 T0 B& G2 E( N8 |6 D7 M词向量(word2vec)# z* L( F: H/ R: W$ f0 Z" g
    k近邻分类(kNN)( `9 x8 g1 j: X; {# C4 h: m
    线性模型
    " @; {% S0 p# {' [) w# ?0 d高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比- L& I. X$ S4 I; |; N  z, ^
    关于学习算法的性能实验结果
    ! u3 ?+ q( h! S, o& F: ]. F) G朴素贝叶斯分类器(NB:naive Bayes classifiers)8 o  h% `' O3 [: s$ P/ q" K
    顾名思义,其适用于分类任务、并且假设每个属性独立地对分类结果发生影响,然而现实中各个因素往往并不独立,那是否就无法解决问题呢?
    " d; e! y9 W9 J9 J$ ~/ {' |$ i- b- W事实上并非如此,相反,朴素贝叶斯分类器在很多情况下都能获得相当好的性能,一种解释是:无需精准概率值即可导致正确分类结果;另一种解释是:若属性间依赖对所有类别影响相同,或依赖关系的影响能相互抵消,则属性条件独立性假设在降低计算开销的同时,不会对性能产生负面影响。+ [+ B+ T" {6 Q6 [' l4 `4 l. m$ O
    # p% T& d* W, P4 M0 P
    优点:
    3 f4 i/ `. h' b1、计算量较小% k) b0 C- g: x& F8 p( M& r
    2、支持懒惰学习、增量学习
    . `: X) o1 S, l3、对缺失数据不太敏感4 ^% S/ U. U+ `5 T" M
    4、推断即查表,速度极快。
    ) N" }8 q4 n* n- r1 [$ r" ]. H4 A缺点:3 g% ]" C  E- z' s  J3 T# l
    1、没有考虑属性间依赖+ K; \+ f$ q/ |! q: x
    2、通过类先验概率产生模型
    + `* z8 U, x0 ]+ B( \& ]! m5 D2 B& h5 \8 K
    半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)
    3 `8 K$ [% @/ A+ N$ _' ?相比NB的不考虑依赖,SNB则是考虑了一个(独依赖估计策略:ODE)或多个(多依赖估计策略:kDE)属性依赖
    7 z- ~) m% x% k: }! H优点:
    0 p; W+ w2 g0 \& q" t7 `! x1、考虑了一个或多个比较强的属性依赖关系,泛化性能可能得到提升
    & y, ~0 r* h4 h" f. p3 P8 C2、计算开销不大. c' s: [- Y+ C6 B5 l/ F
    3、同样支持懒惰学习、增量学习6 J5 e' z7 ]5 n- d
    缺点:9 V1 h; E2 `' _
    1、通过类先验概率产生模型2 f. p% ]0 Y1 k

    5 L5 i, O2 e4 f9 u) R贝叶斯网(信念网)& N" q9 O3 q$ J+ i$ y: b
    贝叶斯网借助有向无环图刻画属性之间的依赖关系,通过吉布斯采样或者变分推断等方式来近似推断后验概率。1 U1 N/ ]5 ]# d
    优点:+ Q& u( g" v/ ?
    1、更加完整地考虑了属性间依赖关系,泛化性能将进一步提升
    9 Q% o& u" _/ S. T  l6 ]2、近似估算后验概率
    % d4 e3 J7 U3 r3 }) |# T3、可用于推测属性缺失的样本
    3 V+ x1 R2 i2 n( |4、良好的可解释性3 H  h( p, W0 O9 g; H) Q
    5、常用于语音识别、机器翻译等
    5 y2 j" Y! L6 J* f9 M缺点:
    $ s% A" X7 ~9 H4 Z  S# _1、结构学习NP难,通过评分搜索方法缓解
    ; h, d: @1 b" \) F; P, f4 b/ q& E2、推断算法的收敛速度较慢
    : o- h: S7 m8 n4 O' W  `* ?2 l( K0 ^" ]" C7 ?: M( J$ m
    决策树(decision tree)
    8 x# m$ F+ Z$ [: x/ k* H- w决策树通过信息纯度(信息增益、增益率、基尼指数等)来决定结点的生成,通过剪枝来缩小决策树的尺寸以及缓解过拟合。是一种非参数学习算法。: w  P$ T; k% W0 N$ F
    优点:
    0 `& M. [- o' U' l1、计算量较小0 Z( k2 M4 y5 F! `
    2、清晰表达属性的重要程度1 R0 F) ?; w5 q, K. o; C" [$ a1 }1 e
    3、可增量学习对模型进行部分重构
    % n$ V- O- M9 P7 A. [! c4、不需要任何领域知识和参数假设+ g) z& J7 u. x& \& {. N% Q
    5、适合高维数据  C, u3 W0 T9 i4 ]
    6、随机森林是基于决策树的集成学习策略,随机森林鲜有短板% w1 G6 U5 t5 \
    缺点:4 S7 f/ t, E3 @8 y( h2 J
    1、没有考虑属性间依赖
    : P: q$ H4 E* P" ]8 S3 t2、容易过拟合,通过剪枝缓解
    & n1 f" |3 e) y; A3 W7 k0 V7 `3、不可用于推测属性缺失的样本
    * Y7 e* e- U$ x7 M& [
    : t, A: |, \2 c9 S  P支持向量机(SVM)
    + t! l- b+ c; v% F. y! b基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开,是一种针对二分类设计的算法,但稍加改造为支持向量回归即可用于回归学习。6 A. Q, y0 O  r& b/ m0 L; x
    优点:) ], f, z* W+ K0 I* h  \. ~4 G
    1、可解决小样本的机器学习任务
    ) n  u2 Q1 }4 f( q# O+ D2、可解决高维问题
    ( \. G# ?* L* Q+ Q+ Y) v3、可通过核方法解决非线性问题! G6 o) V/ N2 P! U
    缺点:! W  b( O1 L# h
    1、对缺失数据敏感2 M/ K- a2 m4 Y3 j% r
    2、对于非线性问题,核函数方法选择一直是个未决问题5 a) I& [- G! W. F  ]% x# L0 g0 q

    * R9 w  N4 D0 S3 A0 S0 Y神经网络
    6 o6 w' X, ?  k( l' U% g4 |4 }优点:% w% M' ~# }& {# G3 z( p2 G
    1、分类的准确度极高  e" V0 {, Z0 z. i/ r
    2、可解决复杂的非线性问题' w! C5 X- X9 h, x- J! [
    3、对噪声神经有较强的鲁棒性和容错能力
    $ h, r& T: A! {4、并行分布处理能力强,分布存储及学习能力强
    0 u- h. k+ h, o5、常用于图像识别
    , I( q" y( N& m3 d' B6、数据量越大,表现越好5 s( b+ a7 r+ f7 S6 _9 `
    缺点:
    / M' c# w7 k$ y0 e3 ?, e1、黑箱模型,难以解释
    ( r+ k5 c( r/ r* A2、需要初始化以及训练大量参数,如网络结构、权值、阈值,计算复杂4 Q5 [/ A1 Q7 W0 o4 x4 r, l
    3、误差逆传播的损失
    & |. ]) c0 N  g5 S& W' Y8 L9 U4、容易陷入局部最小+ ^( H+ D% U' `( {8 e
    3 ?! q; V2 p4 j' Y
    词向量(word2vec)
    # Z/ A) m" a( q& X  G. t. t将文章的每句话当成一行,将每个词用符号隔开(如使用中文分词工具jieba),根据上下文,可以找出相似词义的词。- |3 _) d! }6 B( r& I
    比如:我 喜欢 你,我 爱 你,我 讨厌 你。根据上下文我和你,可以找到喜欢的相似词,有爱和讨厌。2 J7 Q) D. w. C# c6 C- b; ^
    再一般地如:1 2 3 X 4 5 6,1 2 3 Y 4 5 6。根据上下文1 2 3和4 5 6,可以找到X和Y相似。' {4 `3 R# o& A) Y6 e" Z- m+ H$ u
    gensim是一个很好用的Python NLP的包,不光可以用于使用word2vec,还有很多其他的API可以用。它封装了google的C语言版的word2vec。# L2 {8 y1 ?/ t( k' o- X; H4 m: ^" l
    ' y$ Z: ^$ y. Y* u0 c
    k近邻分类(kNN)1 ]6 v8 e; [/ c- [8 P. {
    基于某种距离度量找出训练集中与其最靠近的k个训练样本,或者指定距离e之内的训练样本,分类任务中通过投票法(以及加权投票等)将出现最多的类别标记作为预测结果,回归任务中则使用平均法(以及加权平均等)
    " ?3 w3 ]4 p9 g& I/ G1 a优点:1 V' [0 C" `  R' k/ P
    1、思想简单,易于理解,易于实现,无需估计参数,无需训练;% d1 e9 ?  Z) i& W5 G% G, S
    2、适合对稀有事件进行分类;
    ( k6 p( T# w2 x3、特别适用于多分类问题- L: I; ~& C; J; \- Y
    缺点:* _& {; T5 }9 ~7 Z6 `3 J. W/ a
    1、需要计算出待测样本与所有样本的距离,计算量大
    4 k2 B$ \3 ^# B; o2、样本不平衡时影响大
    6 m4 w+ K6 P* }3、适用的特征维度低
    1 k5 W4 G0 b- I6 k
    : V( G- [- ]- W+ a9 Q) R6 M* ]: W线性模型  n* J7 T; w' v6 ]) A4 u0 M7 [. H
    优点:
    6 l" \9 O) z# `* a1、算法简单,编程方便% ^, s) O( ]. t: t, r5 V3 ]
    2、计算简单,决策速度快
    * C9 v2 j0 a: s9 e  ?( V; b! H  h( w& G缺点:
      o& c$ P8 A: a- Y- p1、拟合效果较差
    - v+ \+ y* P0 z" Q3 Z4 u6 s* _+ C! X) `: C" V0 B# F) e
    高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比/ X7 o0 ~+ k2 \9 [) V5 e
    k-means是高斯混合聚类在混合成分方差相等、且每个样本仅指派给一个混合成分时的特例,因此k-means计算简单,但效果不如高斯混合聚类4 n1 k, y1 M- X: E
    由于计算太过复杂,高斯混合聚类并不常用,推荐使用k-means++(与k-means随机选定不同,k-means++初始选定的几个样本距离尽量远,这样能更快得出分簇结果)等k-means变种。
    & X2 r, m  u4 {3 l: x4 _  g* q# O# S  x
    关于学习算法的性能实验结果$ T2 D& h. H. U
    点击查看原文
    - {6 K) X9 p$ z. X+ N2 V* n
    2 e" b+ Y6 [" Q( ]. ~14年的时候有人做过一个实验[1],比较在不同数据集上(121个),不同的分类器(179个)的实际效果。  O2 M9 }' p7 q- I9 v
    论文题为:Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?
    $ B$ ?- [/ A' z: l3 |6 [  I没有最好的分类器,只有最合适的分类器。' t9 \9 ]. d2 D- S2 Q  o
    1、随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。* O- C: R; {/ i: b
    2、SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。
    9 Q6 z: F- L- }0 v3、神经网络(13.2%)和boosting(~9%)表现不错。1 x, m+ x% z: c$ a8 S) D+ u6 h' B1 o6 @
    4、数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM[2]。
    ' i  \/ h  r+ p6 E" [5、数据量越大,神经网络就越强。7 k6 ]. f& ^" g0 u  h
    ————————————————  x( [$ A% K' W* L
    版权声明:本文为CSDN博主「路飞的纯白世界」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。8 R/ W0 d/ N4 M3 c
    原文链接:https://blog.csdn.net/u010921136/article/details/90668382
    ) V" O1 J9 G3 l0 ~' i3 }  p
    0 J& B$ `. e$ f3 K& o+ _9 C
    3 J/ n/ t! }6 k6 I+ `
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-20 23:56 , Processed in 0.390255 second(s), 51 queries .

    回顶部