QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2765|回复: 0
打印 上一主题 下一主题

[其他资源] Python机器学习-多元分类的5种模型

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-5 16:26 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    / }1 h0 J9 m  V( I8 xPython机器学习-多元分类的5种模型
    + M0 a& ^/ n0 V" r7 G9 T
    % _$ w" X1 m& a. ~0 f4 K7 T- I/ h最近上了些机器学习的课程,于是想透过Kaggle资料集来练习整个资料科学专案的流程,在模型训练阶段,虽然听过许多分类模型,但不是很了解其各别的优缺点与适合的使用时机,所以想来整理一篇文章,统整上课学习与网路资料,作为后续专案的优化方向!% ~3 e  j  ]) F

    # p6 f& U# Y: {2 d; x首先,机器学习主要分为「监督式学习」与「非监督式学习」,两者的差异在于资料是否有「标签」。/ N5 l4 Y1 `6 M6 z# m8 R: b/ e1 t

    + N& b% L7 W% r0 G监督式学习(Supervised Learning):给予「有标签」的资料,举例来说:给机器一堆苹果和橘子的照片,并说明哪些是苹果、哪些是橘子,再拿一张新的照片询问机器这是苹果还是橘子,而监督式学习又可分为回归(Regression)和分类(Classification)。5 r. `9 i" A7 T) ^6 B! k. w# A

    # O8 k9 U4 l& ~7 B, F; V非监督式学习(Unsupervised Learning):给予「无标签」的资料,让机器找出潜在的规则,举例来说:给予机器一堆苹果和橘子的照片,但没有告诉机器这些照片各别是哪种水果,让机器自行找到资料间的相似性,而非监督式学习又可分为分群(Clustering)和降维(Dimension Reduction)。
    ( q% D+ i3 P! y% w2 ?6 R+ H' N" H+ m: Z$ u
    这篇文章会以监督式学习中的分类模型为主。: G) A) ]7 r4 O: _
    % b9 X# e# V1 x+ E' k' _( p8 n
    一、逻辑回归(Logistic Regression)( U! J$ H: u) E& B7 O  ~: M* O/ R
    逻辑回归是个二元分类(Binary Classification)的模型,并有其对应的机率值,举例:明天会下雨的机率有90%。4 N  c* W% d0 y, T$ r7 v6 r
    * l9 U# w, l" q
    基本概念是利用线性回归线(Linear Regression Line),将资料分为A/B两类,再透过Sigmoid Function (or Logistic Function) 输出A类别的机率值(0~1),若机率>0.5则判断为A类别,因为是二元分类,所以当机率<0.5则被归类为B类别。$ N' d( _, l7 K+ j

    , f0 M. C4 e# u9 b若需处理多元分类问题,有两种方法:
    / f0 Z! A. `( }* N+ o. r4 M8 k1. One versus Rest (or One versus All):将每个分类与其他剩余的资料做比较,若有N个类别,就需要N个二元分类器。以下方图例来说明,若有类别1~3,每次各使用一个类别与剩余的两个类别作二元分类后,会得到三个分类器,预测时把资料放到三个分类器中,看哪个分类器的分数较高,就判断为该类别。0 Z, s. V0 Y3 L& D( L
    ( e4 A' t7 F% P; `* X( d
    One versus Rest Example (Source from Internet)
    4 q7 p- X' R) N' k" o  |' }, K5 g7 u+ o' @1 N' h" J& W; d
    2. One versus One:每次选择两个类别做分类,若有N个类别,就会有N*(N-1)/2个分类器,将每次分类的结果做投票,最后判断为票数最高的那个类别。举下方图例来说,有三个类别,会有三组分类器,最后新资料会判断为票数较高的类别1。% [2 s2 X! [6 R3 o( P
    1 H( l6 ?0 Z7 V9 c
    One versus One Example (Source from Internet)
    : f. m2 n4 j( }1 ~5 D" F, L& c& F1 }. n5 @* Z: G5 t  B8 a
    Logistic Regression的优点:; K) }; V. z* j8 b  i, |
    ◆ 资料线性可分(包含在高维度空间找到linear plane)% ]; D  I7 A4 {9 n
    ◆ 除了分类,也可以得到A/B两类的机率
    5 l# ]( j% Q2 z5 q* X! [7 z◆ 执行速度较快
    7 U1 ~& Z9 a$ S# @6 i7 ~
    % a) b  W3 m$ K7 E& KLogistic Regression的缺点:
    + n' _9 }. U- e- \8 D◆ 线性回归线的切法可能不够漂亮
    1 s+ C2 T& j, |6 C! Q0 l% h0 B% Z◆ 不能很好地处理大量、多类特征3 d  ]% i  ~% H0 F9 u
    . ]- n7 w( E5 ?1 ^
    二、 支持向量机( 支持向量机,SVM)0 o- n$ S/ w* L+ R# @9 X
    支持向量机(Support Vector Machine)是在寻找一个超平面(Hyper-plane)来做分类,并使两个类别之间的边界距离最大化(会忽略异常点Outlier)。7 w: P. d& [. g  Q

    * `3 v; c2 P# M' i% N+ @) @SVM也可使用于非线性分类(如下图B),透过Kernels functions将低维空间转换为高维空间,让资料可以在高维空间被线性分类。想像红色球的重量比蓝色球还重,在平面上一拍,让球往上弹,重量重的红色球会较快落下,在立体空间就可以找出个平面来切分红色和蓝色球。; z5 [0 x9 F/ f

    : L  ]( g; [# s7 D. [Support Vector Machine Example (Source from Internet)
    6 F) G( F$ M2 ^6 L! ?8 B8 k( k  i* N0 e1 h
    SVM的优点:
    ' s$ G9 X2 n/ b◆ 切出来的线或平面很漂亮,拥有最大边界距离(margin)6 h5 @- U* [0 a& ?
    ◆ 在高维空间可以使用(即使维度数大于样本数也有效)
    4 c( d) @5 H+ |# L2 B0 U6 p8 C◆ 在资料量较小、非线性、高维度与局部最小点等情况下有相对的优势
    " f: n* u! Q3 H. l: s! P+ ]0 S. m( D- e& u
    SVM的缺点:
    4 D  u2 V( \" g" |◆ 当资料太多时,所需的训练时间太长,而使效果不佳  r( f# j" v' H- a- s% _) }6 y
    ◆ 当资料集有太多noise时(如目标类别有重叠),预测的效果也会不好
    % T! _) X  R+ u5 A2 F& Y- @◆ SVM不会直接提供机率的估计值8 u( _4 B( p" C
    ! N0 e9 ^: b$ k5 x6 V! r5 X
    三、决策树(Decision Tree)2 h) ~* A  j! G- A. ^; ~
    透过模型预测可以得知某个方程式来做分类,但方程式可能很难懂或很难解释,这时需要决策树(Decision Tree),它的准确性可能没有很精准,但「解释性」高,所以决策树是一种条件式的分类器,以树状结构来处理分类问题。
    + N# ~: @, ?# a; ~+ e& k- N
    % F4 v. l; C9 e8 z! ?建构决策树的方式,是将整个资料集依据某个特征分为数个子资料集,再从子资料集依据某个特征,分为更小的资料集,直到子资料集都是同一个类别的资料,而该如何分类则是透过资讯熵(Entropy)和资讯增益(Information Gain)来决定。
      O& G  j# k1 a7 l+ X6 z/ X. X* ?& ]
    1 A- d8 G  f% j1. 资讯熵(Entropy):用来衡量资料的不纯度,若资料为同一类Entropy=0,若资料「等分」成不同类别Entropy=1。" E, I" E" F$ c4 C! f7 e& w  Q5 O
    / l+ o( _% J" N/ E0 I! V4 i
    2. 资讯增益(Information Gain):用来衡量某个特征对于资料分类的能力,而建构决策树就是要找到具有最高资讯增益的分类法(得到纯度最高的分支)。简单来说,原本的资料集(High Entropy=E1),经过分类,得到多个资料集(Low Entropy=E2),其中的E1-E2=Information Gain。
    1 L6 c- ~/ s" H/ h: h& P) z0 m0 x1 D1 m
    Decision Tree的优点:+ u& c; P/ x2 r- C: u8 s( O
    ◆ 决策树容易理解和解释
    7 u& W' i+ ~: |2 c9 ?◆ 资料分类不需要太多的计算3 z% x8 k& p- `$ i5 U9 D2 L
    ◆ 可以处理连续值和离散值  t6 s) f0 O- C  S' @
    ◆ 资料准备相对比较容易+ f6 i1 @2 `8 [2 |& U
    (不需要做特征标准化、可以处理合理的缺失值、不受异常值的影响)
    0 E( `9 h4 b5 _: ^◆ 因为解释性高,能用在决策分析中,找到一个最可能达到目标的策略& S0 C$ J+ l* c: C

    8 Y6 ?+ r3 X: I/ g6 U; ^! E2 T5 HDecision Tree的缺点: **4 y  L% z% F4 Q2 p! n
    **◆ 容易过度拟合(Over-fitting)+ ^. R8 r3 g  O' T* V
    ◆ 若类别太多,但资料量太少,效果比较差  v8 i" G6 t+ i7 Y& F. I2 F

    ! I5 _3 `4 U2 U3 a+ H2 J+ q四、随机森林(Random Forest)
    5 l. B  \% P9 m随机森林,是取部分特征与部分资料产生决策树,每重复此步骤,会再产生一颗决策树,最后再进行多数决投票产生最终结果。
    - d% U; O% {# t2 ~2 n$ H* X1 M5 h& h! q  |- F+ N7 P0 E! j
    随机森林可以降低决策树有过拟合的问题,因为最终结果是对所有的决策树结果进行投票,进而消除了单棵决策树的偏差。; ]) P' S% g6 w; q" Q5 P1 x
    % e, `2 ^# v; ?& ^) S! T0 A/ O
    Random Forest Example (Source from Internet)
    , ?5 u# Z5 V8 Q& [0 r0 X
    * ]! H& d( a. LRandom Forest的优点:" s/ O6 F) A  E7 H1 u
    ◆ 随机森林的决策树够多,分类器就不会过拟合
    " E1 e& s' B1 c/ d# U3 R3 K◆ 每棵树会用到的资料和特征是随机决定的& u: z& A5 F- S2 p/ K* J7 n" K2 P6 V% n
    ◆ 训练或预测时每棵树都能平行化的运行
    / H& `' b2 e% }  ~. w/ ?! O$ z/ t; N% A' K" K
    Random Forest的缺点: **
    1 O, l' B% K- l- {6 A* ?6 D**◆ 当随机森林中的决策树个数很多时,训练时需要的空间和时间会比较大0 |% E! Q; s! d* M

    2 T4 P3 b! a) y3 n. ^# `: Z; I五、极限梯度提升(eXtreme Gradient Boosting, XGBoost)9 |  ^3 L" Z+ u4 e5 k$ n
    其实会想写这篇文章,是因为在使用Kaggle资料做练习时,发现网站上有需多人使用XGBClassifier做分类预测,因此想进一步了解这个模型。
    1 v$ d( z! M* Z6 e8 J! s1 o0 ~: g( }# c" n) B5 R6 ?3 [# j7 Z/ C
    XGBoost的两个主要概念:
    1 k1 D, B3 L  R7 X, G8 M
    3 ~! m  a5 C- a: I' V- Z/ Y" N1. 回归树(Classification and Regression Tree, CART)
    0 J* o* z) p3 r$ e回归树拥有和决策树一样的分支方式,并在各个叶端(Leaf)有一个预测分数(Prediction Score),且回归树是可以做集成的,也就是把资料丢到所有树中,把得到的预测分数加总。
    ( b2 U3 C4 ^! s8 E4 r/ P* h, i6 H+ y; D: B
    2. 梯度提升
    " a- u+ @  G9 Q: ?7 F6 J* X先以常数作为预测,在之后每次预测时新加入一个学习参数,要找出最佳参数,是在每次迭代中,使用贪婪演算法计算Gain,并找出最佳分支做新增,并对负Gain的分支做删减(详细请参考文章1说明)。换句话说,就是「希望后面生成的树,能够修正前面一棵树犯错的地方」。  w3 w. n0 Z, U
    0 z: K) Z2 n. H8 k
    Random Forest 和XGBoost 差异如下图例:/ }* U% `/ v, c2 Z
    Random Forest是由多个决策树所组成,但最终分类结果并未经过加权平均;而XGBoost是由连续的决策树所建构,从错误的分类中学习,并在后续的决策树中增加更高的权重。
    8 B5 t9 T; d: S" K+ h% a6 q& A" Z; B% y% ~" Z
    Random Forest and XGBoost Difference (Reference: 參考文章3)+ y  i& H& G( J$ O
    + {: F! V9 x# w( x# A) N
    XGBoost的优点:
    ; b. B& c/ |7 B+ f2 \; H) X# m◆ 在损失函数中加入正则项,控制模型的复杂度,防止过拟合现象- v* f4 I! s) X& g0 F& L
    ◆ 在每次迭代后,会将叶子节点的权重乘上该系数,来削弱每棵树的影响
    8 `! Q: d; Y9 w% O( w% H3 N5 I: w  q" G$ M3 }
    XGBoost的缺点: **
    2 j" J- |, y) h5 v**◆ 空间复杂度过高,需要储存特征值和特征对应样本的梯度统计值
    / {" K9 [' G6 z. ]————————————————6 L: }; w/ F0 e- ^8 g" m
    版权声明:本文为CSDN博主「wuxiaopengnihao1」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。) Q! L7 f! E/ ?& \
    原文链接:https://blog.csdn.net/wuxiaopengnihao1/article/details/126686410* K* @; J) l3 J8 ?2 ]
    ( Q0 Q$ ]6 ]. u, m0 q% w

    ; X1 i  k0 o' n9 Y% n. r4 t
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-15 03:19 , Processed in 0.424925 second(s), 51 queries .

    回顶部