QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2763|回复: 0
打印 上一主题 下一主题

[其他资源] Python机器学习-多元分类的5种模型

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-5 16:26 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    ! a2 |& g7 D: w  |* @+ h! ]
    Python机器学习-多元分类的5种模型7 X5 p# ]* y- x* ?

    / `+ t3 Q0 x  R2 B( U; Z' T- Q- x最近上了些机器学习的课程,于是想透过Kaggle资料集来练习整个资料科学专案的流程,在模型训练阶段,虽然听过许多分类模型,但不是很了解其各别的优缺点与适合的使用时机,所以想来整理一篇文章,统整上课学习与网路资料,作为后续专案的优化方向!
    6 e+ }% @' |& z  v3 F! M
    " p5 U$ v/ G1 e; ^5 z首先,机器学习主要分为「监督式学习」与「非监督式学习」,两者的差异在于资料是否有「标签」。! e' o* Y  r5 C: n& ?( _! |" l/ [! z
    7 g+ ~5 a) G" l5 W
    监督式学习(Supervised Learning):给予「有标签」的资料,举例来说:给机器一堆苹果和橘子的照片,并说明哪些是苹果、哪些是橘子,再拿一张新的照片询问机器这是苹果还是橘子,而监督式学习又可分为回归(Regression)和分类(Classification)。; P( L# A) L* q6 y8 v5 _

    1 V, O3 [" d- t* d( l; I2 w+ r非监督式学习(Unsupervised Learning):给予「无标签」的资料,让机器找出潜在的规则,举例来说:给予机器一堆苹果和橘子的照片,但没有告诉机器这些照片各别是哪种水果,让机器自行找到资料间的相似性,而非监督式学习又可分为分群(Clustering)和降维(Dimension Reduction)。
    : W! v6 y3 d2 ^$ W1 I
    ( f( _8 ~& y- L9 l( D这篇文章会以监督式学习中的分类模型为主。& ~8 Y9 ^) f, a( Y
    ' d2 p0 k# p  i* ^5 X7 X* L: W# N4 B! D
    一、逻辑回归(Logistic Regression)
    ( {& ~  S& y* F; t( {. z0 I逻辑回归是个二元分类(Binary Classification)的模型,并有其对应的机率值,举例:明天会下雨的机率有90%。
    4 [: ], b7 ^5 g0 M& d, x3 }
    0 W! w4 V" Q& E; z  ]* l1 }+ R3 B3 O基本概念是利用线性回归线(Linear Regression Line),将资料分为A/B两类,再透过Sigmoid Function (or Logistic Function) 输出A类别的机率值(0~1),若机率>0.5则判断为A类别,因为是二元分类,所以当机率<0.5则被归类为B类别。: Y" P: u5 O2 J- t
    2 v3 B& B0 z3 y6 w; _2 A% f  y
    若需处理多元分类问题,有两种方法:; `7 @: V% x4 g0 C$ M7 m
    1. One versus Rest (or One versus All):将每个分类与其他剩余的资料做比较,若有N个类别,就需要N个二元分类器。以下方图例来说明,若有类别1~3,每次各使用一个类别与剩余的两个类别作二元分类后,会得到三个分类器,预测时把资料放到三个分类器中,看哪个分类器的分数较高,就判断为该类别。7 f3 i1 }# J) f8 y* [. U: C
    # Y9 I2 Z4 E+ B' ^# C
    One versus Rest Example (Source from Internet)$ ~$ t! f. v+ z3 W) r! P' q
    5 K  l8 b( R+ U% t' s$ ]/ h3 L3 o
    2. One versus One:每次选择两个类别做分类,若有N个类别,就会有N*(N-1)/2个分类器,将每次分类的结果做投票,最后判断为票数最高的那个类别。举下方图例来说,有三个类别,会有三组分类器,最后新资料会判断为票数较高的类别1。+ i1 f* m2 M% t6 @3 p
    . j; t2 p8 N; l' u( w6 m- G/ w
    One versus One Example (Source from Internet)
    ; U) f8 y0 Z3 ~4 ]. W1 z
    9 o7 F- X& k3 h* W+ hLogistic Regression的优点:
    1 X. a7 y* H( c) O◆ 资料线性可分(包含在高维度空间找到linear plane)3 Y% ~3 X# t9 q
    ◆ 除了分类,也可以得到A/B两类的机率
    2 ~% C6 v: W. f' {- Q7 A◆ 执行速度较快
    / {7 ~2 n2 Z( e6 d; z1 D2 O+ e1 T: ?# K
    ) V+ I& Y1 E0 H' [+ M. t: K: LLogistic Regression的缺点:
    , x: E& @+ ]" x9 g7 B' I◆ 线性回归线的切法可能不够漂亮
    3 j  o* C$ N" a◆ 不能很好地处理大量、多类特征
    / s# b$ [( ?& a
    : a, N% A. _+ j( m. F* Y二、 支持向量机( 支持向量机,SVM)
    ! G3 E+ \3 y9 B0 x支持向量机(Support Vector Machine)是在寻找一个超平面(Hyper-plane)来做分类,并使两个类别之间的边界距离最大化(会忽略异常点Outlier)。
    # E1 p$ x2 U5 r# Z5 n
    " g8 W- e+ z" \) r5 hSVM也可使用于非线性分类(如下图B),透过Kernels functions将低维空间转换为高维空间,让资料可以在高维空间被线性分类。想像红色球的重量比蓝色球还重,在平面上一拍,让球往上弹,重量重的红色球会较快落下,在立体空间就可以找出个平面来切分红色和蓝色球。. x8 q4 R- \  c: J
    ( M6 t! E7 e2 d$ Y: W3 Z
    Support Vector Machine Example (Source from Internet)
    - N  w" a- r- {, n4 n4 W" M7 q8 Y& u
    SVM的优点:+ [1 |! W" {" O' o: I* J  }
    ◆ 切出来的线或平面很漂亮,拥有最大边界距离(margin)
    + X' ^0 y  q4 G7 m◆ 在高维空间可以使用(即使维度数大于样本数也有效)' i# v4 r% ^8 w9 Z
    ◆ 在资料量较小、非线性、高维度与局部最小点等情况下有相对的优势6 X6 N" S0 B; U" v3 e
    + g7 L! s+ w4 ]3 o
    SVM的缺点:, u+ l# H: R4 {7 c. [0 c$ U
    ◆ 当资料太多时,所需的训练时间太长,而使效果不佳+ z# ~' s" h2 Y2 @0 ^
    ◆ 当资料集有太多noise时(如目标类别有重叠),预测的效果也会不好
    . l) E' `1 e$ u; T, K- D◆ SVM不会直接提供机率的估计值6 m% J0 s! B3 L/ \, l1 L2 L* N& y

    3 n& |( n6 H; H- }三、决策树(Decision Tree)
    . n3 ^! ?  n; |' O% u# }透过模型预测可以得知某个方程式来做分类,但方程式可能很难懂或很难解释,这时需要决策树(Decision Tree),它的准确性可能没有很精准,但「解释性」高,所以决策树是一种条件式的分类器,以树状结构来处理分类问题。4 _- l( z2 U8 d" }. `2 f
    ( |4 D0 M" v0 H3 z, \
    建构决策树的方式,是将整个资料集依据某个特征分为数个子资料集,再从子资料集依据某个特征,分为更小的资料集,直到子资料集都是同一个类别的资料,而该如何分类则是透过资讯熵(Entropy)和资讯增益(Information Gain)来决定。/ v+ o1 s/ ?. P' M1 b

    / G& o4 i  |& O) z. Z  x7 [% K$ c1. 资讯熵(Entropy):用来衡量资料的不纯度,若资料为同一类Entropy=0,若资料「等分」成不同类别Entropy=1。
    $ Z! H1 T. V: l/ g5 |$ E, Y; q- J1 m) f
    2. 资讯增益(Information Gain):用来衡量某个特征对于资料分类的能力,而建构决策树就是要找到具有最高资讯增益的分类法(得到纯度最高的分支)。简单来说,原本的资料集(High Entropy=E1),经过分类,得到多个资料集(Low Entropy=E2),其中的E1-E2=Information Gain。
    2 }" ~/ D8 L1 @: u7 Y& s0 [0 O9 X6 [3 [- U
    Decision Tree的优点:+ \/ l  ~' T1 @# A# |
    ◆ 决策树容易理解和解释
    5 U) n( U4 p# ^3 [◆ 资料分类不需要太多的计算% Q* Y& i# ?. B) E- C
    ◆ 可以处理连续值和离散值
    ! S4 c! K2 q) |" T  q$ j◆ 资料准备相对比较容易& n0 h  o3 X- {
    (不需要做特征标准化、可以处理合理的缺失值、不受异常值的影响)+ T% `# u; Y9 [2 n
    ◆ 因为解释性高,能用在决策分析中,找到一个最可能达到目标的策略8 X# x6 g% ~( c6 a3 C
    / R: M( V; ~( L. h3 e0 T" v) W. k
    Decision Tree的缺点: **( u) O7 S2 O7 _& s' f+ j$ A4 S! ?
    **◆ 容易过度拟合(Over-fitting)
    & w" c$ u9 o* c9 u' e5 A& q◆ 若类别太多,但资料量太少,效果比较差
      n/ d3 D1 i6 Z* @5 _' j3 B
    4 Y5 m+ J- S0 z/ q四、随机森林(Random Forest)% s* r: C- P( O1 @! P/ {1 k
    随机森林,是取部分特征与部分资料产生决策树,每重复此步骤,会再产生一颗决策树,最后再进行多数决投票产生最终结果。
    0 c) x) j: G0 x# ], D/ d8 d; |- D: ~- S( E* {: R. v3 ]4 C0 f* s0 ~
    随机森林可以降低决策树有过拟合的问题,因为最终结果是对所有的决策树结果进行投票,进而消除了单棵决策树的偏差。4 Y! E! l" ~& i$ {

    4 z7 D- |) n$ b  \5 f1 M* ERandom Forest Example (Source from Internet)& R( c# F2 X2 z) E- Z# M0 j8 j
    & N4 v+ ^. t# @, l1 P
    Random Forest的优点:- R& R0 @  A1 K0 a$ z9 v4 n/ a
    ◆ 随机森林的决策树够多,分类器就不会过拟合
    , X2 g' Q1 K; j% l◆ 每棵树会用到的资料和特征是随机决定的
    7 X6 m0 Y- A6 @8 x9 s' Y◆ 训练或预测时每棵树都能平行化的运行0 Y# Q1 n7 x9 H# O3 Z# m

      W! s3 W; K3 |% W: SRandom Forest的缺点: **
    2 ]/ s# n: r) U5 s**◆ 当随机森林中的决策树个数很多时,训练时需要的空间和时间会比较大! q# l4 T& _. s- j5 M1 }) }

    : ~0 l7 }9 Z# l: n/ w. ]( {" y五、极限梯度提升(eXtreme Gradient Boosting, XGBoost)
    * Y% ~7 y. J' P7 h7 [% g其实会想写这篇文章,是因为在使用Kaggle资料做练习时,发现网站上有需多人使用XGBClassifier做分类预测,因此想进一步了解这个模型。
    / ~1 S+ J" z9 u( q* g- u+ t! `
    0 H, ?- o: c5 w6 _" y5 h$ wXGBoost的两个主要概念:
    ' s) o% z! k3 D- |3 {4 j# \& ~5 A( s, ~, e) s) z  P2 m
    1. 回归树(Classification and Regression Tree, CART): r# s! c) i8 p* e( F6 ?
    回归树拥有和决策树一样的分支方式,并在各个叶端(Leaf)有一个预测分数(Prediction Score),且回归树是可以做集成的,也就是把资料丢到所有树中,把得到的预测分数加总。
    1 u& _/ V$ G7 R/ {" e) ^; `8 f4 f' ~  p$ U6 ]4 p0 S# F+ T, n# j
    2. 梯度提升3 c9 C- a/ Q. W3 I8 ]6 F
    先以常数作为预测,在之后每次预测时新加入一个学习参数,要找出最佳参数,是在每次迭代中,使用贪婪演算法计算Gain,并找出最佳分支做新增,并对负Gain的分支做删减(详细请参考文章1说明)。换句话说,就是「希望后面生成的树,能够修正前面一棵树犯错的地方」。
    " s4 F/ a. m. s& h/ A
    " F  G8 n( a/ P5 K5 l' fRandom Forest 和XGBoost 差异如下图例:
    ( d4 o$ U2 i( t6 o, o- \: ~Random Forest是由多个决策树所组成,但最终分类结果并未经过加权平均;而XGBoost是由连续的决策树所建构,从错误的分类中学习,并在后续的决策树中增加更高的权重。
    # a2 h* _( _3 h3 }( ~7 {  F: _. i2 U! V3 r- N
    Random Forest and XGBoost Difference (Reference: 參考文章3)! F% j/ j6 G( q/ K  V

    , `2 z: r5 s; Q9 c* XXGBoost的优点:8 }( `7 g% E6 J) o; D1 K: s
    ◆ 在损失函数中加入正则项,控制模型的复杂度,防止过拟合现象3 Q% W# _; ?- f. L2 \8 l( A( F
    ◆ 在每次迭代后,会将叶子节点的权重乘上该系数,来削弱每棵树的影响
    # i9 \  e0 p# X* \# h
    ' `/ N2 G% s; s5 b7 z1 S  r5 u8 G4 [XGBoost的缺点: **) Z, t( C, [( K8 N- |4 r! O* P
    **◆ 空间复杂度过高,需要储存特征值和特征对应样本的梯度统计值2 @; r/ ^* }1 e3 E& F; Y# F3 U  K4 J
    ————————————————
      e* u/ W- l: S$ T: K5 A版权声明:本文为CSDN博主「wuxiaopengnihao1」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。' v5 k3 b0 `" {) B5 E
    原文链接:https://blog.csdn.net/wuxiaopengnihao1/article/details/126686410
    ! z+ d6 x  h5 p: y. F% u4 V! j* G( {. c. I
    " C( d5 y, k  _4 F5 K' D
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-14 23:15 , Processed in 0.398747 second(s), 51 queries .

    回顶部