QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2725|回复: 0
打印 上一主题 下一主题

[其他资源] Python机器学习-多元分类的5种模型

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-5 16:26 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    * ^0 q: Q% _" A% m: h/ o& o
    Python机器学习-多元分类的5种模型; D- `4 B2 ~2 L# k

    * S5 {$ @: C& y! L; J, j最近上了些机器学习的课程,于是想透过Kaggle资料集来练习整个资料科学专案的流程,在模型训练阶段,虽然听过许多分类模型,但不是很了解其各别的优缺点与适合的使用时机,所以想来整理一篇文章,统整上课学习与网路资料,作为后续专案的优化方向!
    & X7 t$ a8 I$ y0 i5 Y' o+ @3 H2 D+ V# [8 `% A' _- f. x
    首先,机器学习主要分为「监督式学习」与「非监督式学习」,两者的差异在于资料是否有「标签」。7 ^! P% G2 X* F% m! T% p

    % B3 ]% M9 u. }6 {: l监督式学习(Supervised Learning):给予「有标签」的资料,举例来说:给机器一堆苹果和橘子的照片,并说明哪些是苹果、哪些是橘子,再拿一张新的照片询问机器这是苹果还是橘子,而监督式学习又可分为回归(Regression)和分类(Classification)。
    + d) W6 u5 P  _! I: ?% F7 y6 T8 o9 o" O
    非监督式学习(Unsupervised Learning):给予「无标签」的资料,让机器找出潜在的规则,举例来说:给予机器一堆苹果和橘子的照片,但没有告诉机器这些照片各别是哪种水果,让机器自行找到资料间的相似性,而非监督式学习又可分为分群(Clustering)和降维(Dimension Reduction)。( |: s9 X1 V1 p, ?( u: c

    + y  P  p9 U5 v2 \8 x这篇文章会以监督式学习中的分类模型为主。
    9 _- v" d" w5 u' `, C/ G: B6 p- V2 \1 u5 c# i) v; K$ T) N
    一、逻辑回归(Logistic Regression)1 r  S6 \0 A) \9 O! I5 ~) |
    逻辑回归是个二元分类(Binary Classification)的模型,并有其对应的机率值,举例:明天会下雨的机率有90%。
    3 M# U1 r$ x) K
    $ e2 m, [1 |8 p5 v: ~& T! K基本概念是利用线性回归线(Linear Regression Line),将资料分为A/B两类,再透过Sigmoid Function (or Logistic Function) 输出A类别的机率值(0~1),若机率>0.5则判断为A类别,因为是二元分类,所以当机率<0.5则被归类为B类别。7 j! t6 h6 [/ N9 r9 E+ u# V  V1 w" g
    . [( m9 ~) ~$ Y% r3 x7 k# m+ R, n) L
    若需处理多元分类问题,有两种方法:- Y* `# c0 ~* G5 \0 S
    1. One versus Rest (or One versus All):将每个分类与其他剩余的资料做比较,若有N个类别,就需要N个二元分类器。以下方图例来说明,若有类别1~3,每次各使用一个类别与剩余的两个类别作二元分类后,会得到三个分类器,预测时把资料放到三个分类器中,看哪个分类器的分数较高,就判断为该类别。+ |6 r& u8 q6 v: ?1 K
    ' T  T! A2 _6 _" t9 l8 ?
    One versus Rest Example (Source from Internet)) r: F" ~/ j; [/ L, M( O
    / L0 O$ d  Y7 g9 G" n# W. S
    2. One versus One:每次选择两个类别做分类,若有N个类别,就会有N*(N-1)/2个分类器,将每次分类的结果做投票,最后判断为票数最高的那个类别。举下方图例来说,有三个类别,会有三组分类器,最后新资料会判断为票数较高的类别1。
    5 D* n) X, N/ |; D0 o# S2 v+ y) H+ ?0 E2 e/ e) X
    One versus One Example (Source from Internet)
    + a/ L% P7 f/ ]% }( [( Q
    ; G' F' `: ?- H# W7 O: i/ P$ pLogistic Regression的优点:: t: x9 r- T7 O5 ~
    ◆ 资料线性可分(包含在高维度空间找到linear plane)# w, K+ I+ g) T. E/ h
    ◆ 除了分类,也可以得到A/B两类的机率, V( h0 j- E: P
    ◆ 执行速度较快
    : @- j3 [& r) _4 P1 U5 M" c. }" F  w/ G& O. p/ q+ O% r4 K: B4 e
    Logistic Regression的缺点:& n7 ]; \8 t0 l( I
    ◆ 线性回归线的切法可能不够漂亮
    ! n0 E7 l; V7 [( J+ r, T/ c◆ 不能很好地处理大量、多类特征+ k! O8 W1 {- ~/ p& h
    ' l! A/ m) `- J8 X( s: E5 u
    二、 支持向量机( 支持向量机,SVM); p% |. O0 d9 S6 f( j' ]! N# I2 E
    支持向量机(Support Vector Machine)是在寻找一个超平面(Hyper-plane)来做分类,并使两个类别之间的边界距离最大化(会忽略异常点Outlier)。0 H$ x, _; S' C8 b* T) ^

    ! C) P& h5 ?+ V: |2 {SVM也可使用于非线性分类(如下图B),透过Kernels functions将低维空间转换为高维空间,让资料可以在高维空间被线性分类。想像红色球的重量比蓝色球还重,在平面上一拍,让球往上弹,重量重的红色球会较快落下,在立体空间就可以找出个平面来切分红色和蓝色球。3 M+ R8 F; d( a- j- Q% c( `
    9 b: e8 d, F$ `2 n
    Support Vector Machine Example (Source from Internet)' r1 l4 Z' X8 _" L# \

    0 F  w' s0 N: Z, ^, ~! m9 H1 tSVM的优点:
    , a1 Y9 ^& I# `; c4 b. ~( r◆ 切出来的线或平面很漂亮,拥有最大边界距离(margin)8 |' y4 k* M& p& ]* F0 s; h  n4 v* y9 h
    ◆ 在高维空间可以使用(即使维度数大于样本数也有效)/ M$ t' w; x* ?! J7 f8 w
    ◆ 在资料量较小、非线性、高维度与局部最小点等情况下有相对的优势( J0 E' J1 ~8 g0 e1 A& [

    6 B) n6 B0 q- j, h" GSVM的缺点:
    1 ?4 A6 O" ?0 Z. ?6 z◆ 当资料太多时,所需的训练时间太长,而使效果不佳$ t7 V3 D  H8 _' g* f
    ◆ 当资料集有太多noise时(如目标类别有重叠),预测的效果也会不好0 r+ _/ y" L2 k4 u
    ◆ SVM不会直接提供机率的估计值
    % @, ?, L( S7 p8 V
    2 \; R- t$ G! C三、决策树(Decision Tree)& o- e; E$ E$ @. T. Z
    透过模型预测可以得知某个方程式来做分类,但方程式可能很难懂或很难解释,这时需要决策树(Decision Tree),它的准确性可能没有很精准,但「解释性」高,所以决策树是一种条件式的分类器,以树状结构来处理分类问题。
    3 t% D9 |  j8 c0 S' O. S/ a  ^$ S$ o- K% o4 J4 y: w
    建构决策树的方式,是将整个资料集依据某个特征分为数个子资料集,再从子资料集依据某个特征,分为更小的资料集,直到子资料集都是同一个类别的资料,而该如何分类则是透过资讯熵(Entropy)和资讯增益(Information Gain)来决定。8 g- \8 V* Z. S, f# E) i

    4 ]" G! Q- ?5 X+ q: _9 C4 q1. 资讯熵(Entropy):用来衡量资料的不纯度,若资料为同一类Entropy=0,若资料「等分」成不同类别Entropy=1。+ @! y7 m) I" ]# V
    * D: s: r! l) y% F
    2. 资讯增益(Information Gain):用来衡量某个特征对于资料分类的能力,而建构决策树就是要找到具有最高资讯增益的分类法(得到纯度最高的分支)。简单来说,原本的资料集(High Entropy=E1),经过分类,得到多个资料集(Low Entropy=E2),其中的E1-E2=Information Gain。
    + ~/ U5 K$ @! c3 C5 _
    ) L* i$ M) C% q9 {9 Q$ g6 Q* j0 s- jDecision Tree的优点:
    + R8 q% t0 K, g/ Z: _  k◆ 决策树容易理解和解释
    : h# _; B7 F2 w% C0 e8 d◆ 资料分类不需要太多的计算/ M; T! Q0 U( L9 u
    ◆ 可以处理连续值和离散值/ g. Q8 F; v2 a6 C
    ◆ 资料准备相对比较容易& d  ^& ]9 A  _: u
    (不需要做特征标准化、可以处理合理的缺失值、不受异常值的影响)
    / C0 q$ i( {4 i5 }◆ 因为解释性高,能用在决策分析中,找到一个最可能达到目标的策略. _* i) g6 P4 P- V: Q

    . R$ f* Z$ s. |0 D0 q% \Decision Tree的缺点: **+ i& O  Z4 z( n$ t
    **◆ 容易过度拟合(Over-fitting)
    1 u6 {9 n( o' U) R◆ 若类别太多,但资料量太少,效果比较差
    6 e6 R8 G$ E; k
    + p: `0 A' U7 O四、随机森林(Random Forest). _; \* Q9 i" [* G
    随机森林,是取部分特征与部分资料产生决策树,每重复此步骤,会再产生一颗决策树,最后再进行多数决投票产生最终结果。/ }) h6 H1 t" K
    5 i$ `3 u7 }! i( ]) t
    随机森林可以降低决策树有过拟合的问题,因为最终结果是对所有的决策树结果进行投票,进而消除了单棵决策树的偏差。
    ' k' n! n! o0 V  |9 ?5 r* q. Y, `/ `4 W6 P) ^$ B, c% e
    Random Forest Example (Source from Internet)' V* X2 |, n& q, h+ f, h6 |/ r: M

    8 z9 v0 Z- D% u  z/ W" `# CRandom Forest的优点:3 F; m+ z) C( U6 _
    ◆ 随机森林的决策树够多,分类器就不会过拟合0 G' A! @# c6 V2 {! y
    ◆ 每棵树会用到的资料和特征是随机决定的
    8 K" c9 m0 Q" W. {( j! _. T: w1 F◆ 训练或预测时每棵树都能平行化的运行
      U; B: s! c6 b9 K( ~* I% t- f
    - d+ x5 }2 m- URandom Forest的缺点: **
    1 f4 A8 m# S6 C**◆ 当随机森林中的决策树个数很多时,训练时需要的空间和时间会比较大6 ~- e+ \; ^1 r& ?7 X
    6 b( k  C! K* ]. _# N
    五、极限梯度提升(eXtreme Gradient Boosting, XGBoost)
    3 H, n4 }- z+ h. n& S) R4 d其实会想写这篇文章,是因为在使用Kaggle资料做练习时,发现网站上有需多人使用XGBClassifier做分类预测,因此想进一步了解这个模型。
    2 p: ~  i+ O' @6 q/ e' [& G
    6 }6 g$ g9 U2 [0 t* K3 o9 fXGBoost的两个主要概念:3 {4 h- t8 ~! O$ h$ w( v" Y" I
    . J5 o  w4 S& Z+ ]: _6 n" [
    1. 回归树(Classification and Regression Tree, CART)2 H# M6 a6 t$ b$ K% b
    回归树拥有和决策树一样的分支方式,并在各个叶端(Leaf)有一个预测分数(Prediction Score),且回归树是可以做集成的,也就是把资料丢到所有树中,把得到的预测分数加总。
    ! Y" ?9 G9 L: B' P, E
    2 C0 [, Y$ _* Q2 k2. 梯度提升( K1 d) T* ^7 p' g
    先以常数作为预测,在之后每次预测时新加入一个学习参数,要找出最佳参数,是在每次迭代中,使用贪婪演算法计算Gain,并找出最佳分支做新增,并对负Gain的分支做删减(详细请参考文章1说明)。换句话说,就是「希望后面生成的树,能够修正前面一棵树犯错的地方」。
    ( d- j$ B) `0 S. f) B
    / B" l( h6 k# Z( `+ SRandom Forest 和XGBoost 差异如下图例:
    2 o' y) q: h, ?: _Random Forest是由多个决策树所组成,但最终分类结果并未经过加权平均;而XGBoost是由连续的决策树所建构,从错误的分类中学习,并在后续的决策树中增加更高的权重。
    ( V- Z' k. e2 n1 ]( o  \( M  f# [. O6 V1 R2 K; \
    Random Forest and XGBoost Difference (Reference: 參考文章3); }1 K3 Q' P8 ~7 Z( W# h/ N
    ' W8 P$ U2 k, \; F- Y
    XGBoost的优点:
    9 j! T; S3 H+ Y  R◆ 在损失函数中加入正则项,控制模型的复杂度,防止过拟合现象
    6 Z0 w7 M9 P' i, T◆ 在每次迭代后,会将叶子节点的权重乘上该系数,来削弱每棵树的影响
    ( ?5 X3 Y, c( E( O6 k* M9 x- N) E- f6 n1 p; u( x  ]% w
    XGBoost的缺点: **
    9 V6 ?# O$ l0 T9 Q; H$ Z: v0 R**◆ 空间复杂度过高,需要储存特征值和特征对应样本的梯度统计值, l5 O3 x  L9 V& l0 C; {
    ————————————————3 P- X/ H! t8 c
    版权声明:本文为CSDN博主「wuxiaopengnihao1」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。# D8 e6 f; x/ ~4 T: k
    原文链接:https://blog.csdn.net/wuxiaopengnihao1/article/details/126686410
    9 Q  U' n. K4 D& `4 d' V
    ( O/ ], J& o8 f- e! Q/ q1 V% q
    : F" l$ Z/ B8 Y: e
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-10 08:57 , Processed in 0.399415 second(s), 51 queries .

    回顶部