QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2196|回复: 0
打印 上一主题 下一主题

[其他资源] Python机器学习-多元分类的5种模型

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-5 16:26 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    : t( \4 Z8 b9 E7 Q6 H
    Python机器学习-多元分类的5种模型+ q# h4 {9 _" I  u
    1 j5 K' B& R2 L+ f- U1 x
    最近上了些机器学习的课程,于是想透过Kaggle资料集来练习整个资料科学专案的流程,在模型训练阶段,虽然听过许多分类模型,但不是很了解其各别的优缺点与适合的使用时机,所以想来整理一篇文章,统整上课学习与网路资料,作为后续专案的优化方向!
    , Q$ J( h& M. K  M+ k% r' }3 w% Y& |; }8 u8 _' U  U  O
    首先,机器学习主要分为「监督式学习」与「非监督式学习」,两者的差异在于资料是否有「标签」。
    * W- p/ O$ c1 S! m  P, O& r9 ^. i/ y! B( {
    监督式学习(Supervised Learning):给予「有标签」的资料,举例来说:给机器一堆苹果和橘子的照片,并说明哪些是苹果、哪些是橘子,再拿一张新的照片询问机器这是苹果还是橘子,而监督式学习又可分为回归(Regression)和分类(Classification)。. e: G# ^$ R: m" }! t! L) W, G
    ( D9 P% h; ^- T
    非监督式学习(Unsupervised Learning):给予「无标签」的资料,让机器找出潜在的规则,举例来说:给予机器一堆苹果和橘子的照片,但没有告诉机器这些照片各别是哪种水果,让机器自行找到资料间的相似性,而非监督式学习又可分为分群(Clustering)和降维(Dimension Reduction)。
    # j% o1 n& g% m1 m2 l, a/ H0 _
    $ n5 e+ M% m* i1 b, u这篇文章会以监督式学习中的分类模型为主。
    % _- ]: E9 W. e7 H. C7 H5 h4 j( S- R4 i" k( J
    一、逻辑回归(Logistic Regression)
    " E" p5 ^7 ^5 H' z# R6 e5 k逻辑回归是个二元分类(Binary Classification)的模型,并有其对应的机率值,举例:明天会下雨的机率有90%。. k! ~. G2 K6 }% c
    ( H; B; ~7 O: i+ _. c% l, }$ M
    基本概念是利用线性回归线(Linear Regression Line),将资料分为A/B两类,再透过Sigmoid Function (or Logistic Function) 输出A类别的机率值(0~1),若机率>0.5则判断为A类别,因为是二元分类,所以当机率<0.5则被归类为B类别。
    3 t" H8 i+ _/ ]" O/ k* o4 |/ S3 H5 I1 P4 w# ?5 v( N8 E
    若需处理多元分类问题,有两种方法:
    1 A' ]) a* K# J, I! S5 Q1. One versus Rest (or One versus All):将每个分类与其他剩余的资料做比较,若有N个类别,就需要N个二元分类器。以下方图例来说明,若有类别1~3,每次各使用一个类别与剩余的两个类别作二元分类后,会得到三个分类器,预测时把资料放到三个分类器中,看哪个分类器的分数较高,就判断为该类别。
    : X8 B! R' u: p' m9 ?
    9 [. o5 U' p* V. \7 K8 i2 SOne versus Rest Example (Source from Internet)
    5 r4 c; Y4 @  m8 h, v9 r/ Z2 l3 t6 ]4 E1 W- p1 A
    2. One versus One:每次选择两个类别做分类,若有N个类别,就会有N*(N-1)/2个分类器,将每次分类的结果做投票,最后判断为票数最高的那个类别。举下方图例来说,有三个类别,会有三组分类器,最后新资料会判断为票数较高的类别1。# y0 D, {, x* O8 }1 X3 o
    9 X' B, }6 }3 g" S7 |+ [
    One versus One Example (Source from Internet)" U1 C: O/ C5 P5 ]( x
    * k' T! ]$ W. d6 ~6 x# R
    Logistic Regression的优点:
    5 V* B4 B  G4 ^+ c7 O# {& h7 Z◆ 资料线性可分(包含在高维度空间找到linear plane)
    ) B8 F1 T  t+ [, O0 \: C* b◆ 除了分类,也可以得到A/B两类的机率
    ( H9 U6 w8 v( @& w4 k◆ 执行速度较快3 a; H/ H9 y# \! X, e  m

    4 I5 ^- B$ G. bLogistic Regression的缺点:
    3 a9 P: M, a4 |% u4 D. Q! b" ~- Y◆ 线性回归线的切法可能不够漂亮  @# [1 h: l! ]/ A" W: H% w3 b
    ◆ 不能很好地处理大量、多类特征; O# k* {# [+ V+ A! I  ^% ?7 s

    , @4 v3 s* X. B; X8 Y  c二、 支持向量机( 支持向量机,SVM)
    . ?+ M: y# m2 G" u6 H# Z: S支持向量机(Support Vector Machine)是在寻找一个超平面(Hyper-plane)来做分类,并使两个类别之间的边界距离最大化(会忽略异常点Outlier)。
    ! J5 H- X. G' t. S& v7 x0 w
    " x7 l7 N6 v4 m+ S# |+ KSVM也可使用于非线性分类(如下图B),透过Kernels functions将低维空间转换为高维空间,让资料可以在高维空间被线性分类。想像红色球的重量比蓝色球还重,在平面上一拍,让球往上弹,重量重的红色球会较快落下,在立体空间就可以找出个平面来切分红色和蓝色球。1 o2 y$ e. i0 f! N2 @* ~  N

    : }5 @, L9 p$ p; o& MSupport Vector Machine Example (Source from Internet)3 A- M: A7 i+ d) C5 P5 A

    - C8 i9 ~) k! b, k, P( I  l' V" }: ZSVM的优点:
    . ?' ]8 W$ E8 N1 v◆ 切出来的线或平面很漂亮,拥有最大边界距离(margin)  }& g6 a9 j4 m4 r. U7 b' ?
    ◆ 在高维空间可以使用(即使维度数大于样本数也有效)
    ) E! \* z2 B. Q3 j' n8 b◆ 在资料量较小、非线性、高维度与局部最小点等情况下有相对的优势& W+ Y9 g) ?$ I, p' ]' A! H
    2 a2 C5 e, i0 f3 Q# w" G+ C0 G
    SVM的缺点:* k8 h3 P  o% \
    ◆ 当资料太多时,所需的训练时间太长,而使效果不佳
    9 ~  x9 b: I; P4 [# b: z4 j/ e9 L◆ 当资料集有太多noise时(如目标类别有重叠),预测的效果也会不好, v2 ]9 ^6 o& f+ g5 C
    ◆ SVM不会直接提供机率的估计值
    ; d, w/ y# E7 z4 J4 {
    ( }0 m' v( v+ }三、决策树(Decision Tree)
    & B8 d: B, n" S& A  N透过模型预测可以得知某个方程式来做分类,但方程式可能很难懂或很难解释,这时需要决策树(Decision Tree),它的准确性可能没有很精准,但「解释性」高,所以决策树是一种条件式的分类器,以树状结构来处理分类问题。
    - Q$ l; `( ]$ b9 q9 _9 q% k# n* `- E1 H3 b+ }1 d' A$ {
    建构决策树的方式,是将整个资料集依据某个特征分为数个子资料集,再从子资料集依据某个特征,分为更小的资料集,直到子资料集都是同一个类别的资料,而该如何分类则是透过资讯熵(Entropy)和资讯增益(Information Gain)来决定。, T: n- u( r; Q* U6 c8 e

    5 t$ M' O' X6 L' h' V  {; d4 K1. 资讯熵(Entropy):用来衡量资料的不纯度,若资料为同一类Entropy=0,若资料「等分」成不同类别Entropy=1。; i- b: {4 y' T
    , g2 P+ I+ d1 l8 p
    2. 资讯增益(Information Gain):用来衡量某个特征对于资料分类的能力,而建构决策树就是要找到具有最高资讯增益的分类法(得到纯度最高的分支)。简单来说,原本的资料集(High Entropy=E1),经过分类,得到多个资料集(Low Entropy=E2),其中的E1-E2=Information Gain。
      h( I7 g( c; h( e
    * m1 j  Q: O- q+ LDecision Tree的优点:9 @" l0 [) ~. {1 v
    ◆ 决策树容易理解和解释9 m- x7 [. J) R% q) Q1 z
    ◆ 资料分类不需要太多的计算7 G) j2 N  W2 E$ e6 s9 g- G
    ◆ 可以处理连续值和离散值
    : ]. P- ?! T2 S: i: L5 |1 b8 V◆ 资料准备相对比较容易% ~8 R, B% ?1 r' g/ U: t: {
    (不需要做特征标准化、可以处理合理的缺失值、不受异常值的影响)! k9 M+ W3 o7 e% u" X: s! C6 g
    ◆ 因为解释性高,能用在决策分析中,找到一个最可能达到目标的策略
      `2 c5 e( ~) i. \  Y
    8 C; L1 d% N) [3 |. C: f7 _Decision Tree的缺点: **
    1 J' T, n0 w. b( \**◆ 容易过度拟合(Over-fitting)
    ! S! a( [& H* @◆ 若类别太多,但资料量太少,效果比较差! ]4 X3 N: l" U  a' O

      \: M# Y- m/ R4 N四、随机森林(Random Forest)
    5 v, t4 P# Z6 }. o. N7 l4 g, z随机森林,是取部分特征与部分资料产生决策树,每重复此步骤,会再产生一颗决策树,最后再进行多数决投票产生最终结果。
    , _: q( Q, j7 A; n) a# A' ~3 h6 a0 U7 G3 H- i$ f5 w; G5 ]+ z4 O
    随机森林可以降低决策树有过拟合的问题,因为最终结果是对所有的决策树结果进行投票,进而消除了单棵决策树的偏差。9 F3 Y4 a1 ]7 i3 L! _* d' ?
    $ R% @' F0 K4 H' }+ @+ \0 A
    Random Forest Example (Source from Internet). P, o" q) T, |# e4 Z/ \% f/ X
    : _6 y: T* R  d# v# I9 O+ T/ s0 j
    Random Forest的优点:
    ' q9 y% d- H0 C" O3 S0 N  o◆ 随机森林的决策树够多,分类器就不会过拟合- Z3 @0 O: e1 x1 @. r* q, b5 v
    ◆ 每棵树会用到的资料和特征是随机决定的; Y* u3 L; g5 r
    ◆ 训练或预测时每棵树都能平行化的运行
    + q& H1 p# `' M0 G+ D+ w! @4 w: R: a2 ]# V. U/ j" `% V- H$ Q
    Random Forest的缺点: **
    2 t; F, v7 ?, Z**◆ 当随机森林中的决策树个数很多时,训练时需要的空间和时间会比较大
    . R! g  c$ T( n3 V
    + {# g- S  s  T" r, q; I五、极限梯度提升(eXtreme Gradient Boosting, XGBoost)0 O0 t) a( Q3 H8 X  B
    其实会想写这篇文章,是因为在使用Kaggle资料做练习时,发现网站上有需多人使用XGBClassifier做分类预测,因此想进一步了解这个模型。
    6 ?( H% z0 X/ N8 b4 c# T& q
      s# ^; c# `* y  XXGBoost的两个主要概念:6 ~5 d  ]* V8 s
    0 y8 u- i) I6 s3 F" v, k* A. z
    1. 回归树(Classification and Regression Tree, CART)
    # e$ v- M' Q1 m( J1 X0 q7 q! f- t回归树拥有和决策树一样的分支方式,并在各个叶端(Leaf)有一个预测分数(Prediction Score),且回归树是可以做集成的,也就是把资料丢到所有树中,把得到的预测分数加总。
    6 j# V$ k1 P/ T! C5 Q
    4 m7 }& y" f, {  t2 g! `2. 梯度提升. u0 c$ n$ f$ i8 T! P
    先以常数作为预测,在之后每次预测时新加入一个学习参数,要找出最佳参数,是在每次迭代中,使用贪婪演算法计算Gain,并找出最佳分支做新增,并对负Gain的分支做删减(详细请参考文章1说明)。换句话说,就是「希望后面生成的树,能够修正前面一棵树犯错的地方」。
    2 m* ~! F* b) p' w, q9 m- H' C% f: T
    Random Forest 和XGBoost 差异如下图例:
    2 V+ t# a$ g& F7 g/ }. ^4 z( ~0 [- ^/ A% ~Random Forest是由多个决策树所组成,但最终分类结果并未经过加权平均;而XGBoost是由连续的决策树所建构,从错误的分类中学习,并在后续的决策树中增加更高的权重。, A8 U' j2 s) \- r! U+ l1 S. N
      \6 A, o6 z1 [
    Random Forest and XGBoost Difference (Reference: 參考文章3)# s+ N6 i& |; m- }: V2 E! A" D

    : x. l- l/ X2 x. m1 u, aXGBoost的优点:* g) X1 O4 @( A% ]1 x2 J% a
    ◆ 在损失函数中加入正则项,控制模型的复杂度,防止过拟合现象
    , b3 w7 b: h& h3 `◆ 在每次迭代后,会将叶子节点的权重乘上该系数,来削弱每棵树的影响
    % s* v1 P! K4 ]1 }" R! V! W7 R* ?8 v& D5 O; Z
    XGBoost的缺点: **: \) P2 S$ N4 A% \* W% |' e
    **◆ 空间复杂度过高,需要储存特征值和特征对应样本的梯度统计值
    * I1 q5 g0 `9 h) ], W1 L5 n————————————————3 z  C4 N. q0 u% u, K
    版权声明:本文为CSDN博主「wuxiaopengnihao1」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
      b2 a. U3 W3 J2 Z; u8 u7 j' _原文链接:https://blog.csdn.net/wuxiaopengnihao1/article/details/1266864104 n0 e* }  i3 L! D, F' x

    . t$ _2 w5 h9 L. S) R: T" O7 L, W5 Y3 Y; M. q
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-8-14 13:05 , Processed in 0.366388 second(s), 50 queries .

    回顶部