QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2760|回复: 0
打印 上一主题 下一主题

[其他资源] Python机器学习-多元分类的5种模型

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-5 16:26 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    2 N6 T! \; o' L2 q* o7 S
    Python机器学习-多元分类的5种模型
    2 R: K. e* B+ f& r0 [* c2 l5 E# C) m: Z' n
    最近上了些机器学习的课程,于是想透过Kaggle资料集来练习整个资料科学专案的流程,在模型训练阶段,虽然听过许多分类模型,但不是很了解其各别的优缺点与适合的使用时机,所以想来整理一篇文章,统整上课学习与网路资料,作为后续专案的优化方向!
    4 a* |" g6 W) h: x# \, ?( g
    : h2 U6 s" V; f! W. A/ O首先,机器学习主要分为「监督式学习」与「非监督式学习」,两者的差异在于资料是否有「标签」。' H* B8 f% A& J
    6 y% U( Y- e$ w* A: b
    监督式学习(Supervised Learning):给予「有标签」的资料,举例来说:给机器一堆苹果和橘子的照片,并说明哪些是苹果、哪些是橘子,再拿一张新的照片询问机器这是苹果还是橘子,而监督式学习又可分为回归(Regression)和分类(Classification)。# Y! J4 r5 {( H8 D* h* A

    & q& F  z$ y9 @. Q# C非监督式学习(Unsupervised Learning):给予「无标签」的资料,让机器找出潜在的规则,举例来说:给予机器一堆苹果和橘子的照片,但没有告诉机器这些照片各别是哪种水果,让机器自行找到资料间的相似性,而非监督式学习又可分为分群(Clustering)和降维(Dimension Reduction)。9 @' G. ^' s$ D& }1 a  ?4 o
    & w3 j! G% I# s7 C+ @6 H7 e# h, `
    这篇文章会以监督式学习中的分类模型为主。
    9 p2 Q* R9 b( Q' l" C
    ) ~- S& O* A5 T一、逻辑回归(Logistic Regression)
    ' q! ]; X) R& w: D5 g逻辑回归是个二元分类(Binary Classification)的模型,并有其对应的机率值,举例:明天会下雨的机率有90%。
    4 ^+ [5 h4 {0 \  ]$ o; w, f  G: o2 R8 Y5 b/ R" E+ U  A
    基本概念是利用线性回归线(Linear Regression Line),将资料分为A/B两类,再透过Sigmoid Function (or Logistic Function) 输出A类别的机率值(0~1),若机率>0.5则判断为A类别,因为是二元分类,所以当机率<0.5则被归类为B类别。  t+ W, P9 R# m
    ; D. u) _5 v4 U
    若需处理多元分类问题,有两种方法:
    6 A5 b+ o. a8 c' y: f1 Q1. One versus Rest (or One versus All):将每个分类与其他剩余的资料做比较,若有N个类别,就需要N个二元分类器。以下方图例来说明,若有类别1~3,每次各使用一个类别与剩余的两个类别作二元分类后,会得到三个分类器,预测时把资料放到三个分类器中,看哪个分类器的分数较高,就判断为该类别。$ }1 j" g" S. U' V1 Y, B- k% _: r% t

    1 F* ?" C( c5 ~) _One versus Rest Example (Source from Internet): o0 g- r& g4 N% a# W% N
    ( ~/ d! g, x# {- H, h3 Y; O1 f
    2. One versus One:每次选择两个类别做分类,若有N个类别,就会有N*(N-1)/2个分类器,将每次分类的结果做投票,最后判断为票数最高的那个类别。举下方图例来说,有三个类别,会有三组分类器,最后新资料会判断为票数较高的类别1。2 \2 A. p7 N! |. \$ A% {
    & P7 M0 r. J) P
    One versus One Example (Source from Internet); q* _. d" `$ k% O
    " B8 ?- G7 {5 N7 `. J4 g
    Logistic Regression的优点:5 Y0 D7 n- w; _- l
    ◆ 资料线性可分(包含在高维度空间找到linear plane)$ H. V6 N5 J, L5 w% Y+ Y
    ◆ 除了分类,也可以得到A/B两类的机率$ I2 v' J, F$ @5 Y* u
    ◆ 执行速度较快
      w* I: h0 d5 J" @
    / E+ p! O+ [! k' `1 |8 zLogistic Regression的缺点:
    $ c: P+ Q! W9 v, l  _" K5 b9 T◆ 线性回归线的切法可能不够漂亮% q" {( y6 s8 Z$ F
    ◆ 不能很好地处理大量、多类特征
    # e. H% f+ i! |. s2 h2 I0 A7 V  i& i8 l* j) N
    二、 支持向量机( 支持向量机,SVM)
    & ]8 W3 t) n/ i支持向量机(Support Vector Machine)是在寻找一个超平面(Hyper-plane)来做分类,并使两个类别之间的边界距离最大化(会忽略异常点Outlier)。
    : t- O( v2 |0 E0 C0 r" C4 v+ E
    ( E; u$ M1 `  J, f4 DSVM也可使用于非线性分类(如下图B),透过Kernels functions将低维空间转换为高维空间,让资料可以在高维空间被线性分类。想像红色球的重量比蓝色球还重,在平面上一拍,让球往上弹,重量重的红色球会较快落下,在立体空间就可以找出个平面来切分红色和蓝色球。
      S5 Q) c: ^( a& ~" _& Z; ?1 q
    - T  c5 g! t6 _+ b* qSupport Vector Machine Example (Source from Internet)/ z9 I( X/ \2 |- P
    ; F" L8 {" N2 k6 v: o
    SVM的优点:  i- R% k( B: I! b5 X3 Z& G
    ◆ 切出来的线或平面很漂亮,拥有最大边界距离(margin)$ ?) a. `+ ?  O, }9 S2 u, f: v/ D
    ◆ 在高维空间可以使用(即使维度数大于样本数也有效)
    2 f" P6 X2 |4 T+ v$ Z◆ 在资料量较小、非线性、高维度与局部最小点等情况下有相对的优势2 B" M" v8 {' @+ M" ~

    3 g8 ?+ G1 M- }: dSVM的缺点:
    * E2 m: L9 X* P7 U◆ 当资料太多时,所需的训练时间太长,而使效果不佳6 j- ]2 ^1 k" X. |# A& k0 n
    ◆ 当资料集有太多noise时(如目标类别有重叠),预测的效果也会不好( |0 a/ ]6 R4 n% Q
    ◆ SVM不会直接提供机率的估计值
    2 L6 _" ?/ K0 W$ {) T/ N
    1 K* B# d+ i+ j" C/ n三、决策树(Decision Tree)8 f, D. \3 V2 W4 h: ?  B
    透过模型预测可以得知某个方程式来做分类,但方程式可能很难懂或很难解释,这时需要决策树(Decision Tree),它的准确性可能没有很精准,但「解释性」高,所以决策树是一种条件式的分类器,以树状结构来处理分类问题。
    " C$ S! w# T% ~1 f1 _" c' r6 @' Z1 {  t) [
    建构决策树的方式,是将整个资料集依据某个特征分为数个子资料集,再从子资料集依据某个特征,分为更小的资料集,直到子资料集都是同一个类别的资料,而该如何分类则是透过资讯熵(Entropy)和资讯增益(Information Gain)来决定。0 A! O2 I  r! Q$ I
    $ T( ^: ?2 }8 X9 \
    1. 资讯熵(Entropy):用来衡量资料的不纯度,若资料为同一类Entropy=0,若资料「等分」成不同类别Entropy=1。8 J' Y. w2 Q# G

    ' v+ u$ C$ I! K9 I' Z2. 资讯增益(Information Gain):用来衡量某个特征对于资料分类的能力,而建构决策树就是要找到具有最高资讯增益的分类法(得到纯度最高的分支)。简单来说,原本的资料集(High Entropy=E1),经过分类,得到多个资料集(Low Entropy=E2),其中的E1-E2=Information Gain。0 m1 t$ O6 y$ D1 O- |
    . a  E# J, e" J# E
    Decision Tree的优点:
    ! M: w3 T# v- `' ~: r) G; Q) y◆ 决策树容易理解和解释
    , Y: S3 h( t) r2 ?: e◆ 资料分类不需要太多的计算
    , k3 F9 b1 [# |1 Y8 I& ?  _◆ 可以处理连续值和离散值* f* z9 i4 N8 `8 w; s: }
    ◆ 资料准备相对比较容易
    1 c& X3 k1 r/ K0 }(不需要做特征标准化、可以处理合理的缺失值、不受异常值的影响)
    & G( I# w5 z7 h8 {; _◆ 因为解释性高,能用在决策分析中,找到一个最可能达到目标的策略
    / M! A; W5 R6 X% h
    " T' ]8 x. E( N/ iDecision Tree的缺点: **% o+ n! }/ I4 ^. q& g: y
    **◆ 容易过度拟合(Over-fitting)
    * D4 O# l  r  n1 E! J3 Z◆ 若类别太多,但资料量太少,效果比较差3 a2 l, _0 x  x1 W1 {
    7 G. ?$ F- E% Y" P+ Y
    四、随机森林(Random Forest)
    ! Y$ a( s/ B+ Y% v9 g随机森林,是取部分特征与部分资料产生决策树,每重复此步骤,会再产生一颗决策树,最后再进行多数决投票产生最终结果。% K( X1 T; ]' f! m2 p

    " D; S5 V$ a) M! ]随机森林可以降低决策树有过拟合的问题,因为最终结果是对所有的决策树结果进行投票,进而消除了单棵决策树的偏差。
    ' U# D) T: R( I# K3 V, W
    - F6 [& t0 ]/ M; I( d7 [Random Forest Example (Source from Internet)
    ' ^/ |$ o5 p! M9 U- u9 j+ h/ X* w, {$ f
    Random Forest的优点:+ i2 \" d* U, A( ^7 F0 U$ P9 @
    ◆ 随机森林的决策树够多,分类器就不会过拟合( b( W; n/ W6 V8 P1 V
    ◆ 每棵树会用到的资料和特征是随机决定的- H! q: {. H3 B2 S. y! Y) O
    ◆ 训练或预测时每棵树都能平行化的运行
    $ t, `8 m- Y) i/ `8 y3 N/ S2 |5 O3 I/ a8 ?. v1 x
    Random Forest的缺点: **
    ' x& V: y  s' h  u, F**◆ 当随机森林中的决策树个数很多时,训练时需要的空间和时间会比较大  I, u3 |* z7 q% @; V3 R7 P& Y
    ( Y$ W3 }. L9 ^$ o
    五、极限梯度提升(eXtreme Gradient Boosting, XGBoost)" J: h/ X7 E& u
    其实会想写这篇文章,是因为在使用Kaggle资料做练习时,发现网站上有需多人使用XGBClassifier做分类预测,因此想进一步了解这个模型。
    ; r1 R5 d3 m) I! o6 [' O; D& `% g/ ^# Q) ?
    XGBoost的两个主要概念:
    + j- C/ R; q8 V: b
    . D) g, ^8 J3 j" ]( `6 q' S1. 回归树(Classification and Regression Tree, CART)
    - a1 a) B3 x& v1 }) n3 q' D( U回归树拥有和决策树一样的分支方式,并在各个叶端(Leaf)有一个预测分数(Prediction Score),且回归树是可以做集成的,也就是把资料丢到所有树中,把得到的预测分数加总。
    & e3 I; Z2 ^+ l3 f- S% W: q! q% K# |+ O' ?9 N0 v
    2. 梯度提升
    9 G; ?2 c3 y% ]# R  p1 B( N先以常数作为预测,在之后每次预测时新加入一个学习参数,要找出最佳参数,是在每次迭代中,使用贪婪演算法计算Gain,并找出最佳分支做新增,并对负Gain的分支做删减(详细请参考文章1说明)。换句话说,就是「希望后面生成的树,能够修正前面一棵树犯错的地方」。: h# ^  {5 L0 o+ U: S8 j

    , Y. {2 P  d% H- v( PRandom Forest 和XGBoost 差异如下图例:7 _; G, _! c/ `5 V- h
    Random Forest是由多个决策树所组成,但最终分类结果并未经过加权平均;而XGBoost是由连续的决策树所建构,从错误的分类中学习,并在后续的决策树中增加更高的权重。
    ; N: F5 p  B. b
    , h( C, r( g, ]: K( }Random Forest and XGBoost Difference (Reference: 參考文章3)9 K8 w6 F* i- ]
    7 E, X7 `' q8 t2 o$ C9 A
    XGBoost的优点:3 E" u7 ^. u; \# O5 I" j
    ◆ 在损失函数中加入正则项,控制模型的复杂度,防止过拟合现象
    ( p$ c8 Y' F' K1 @; S◆ 在每次迭代后,会将叶子节点的权重乘上该系数,来削弱每棵树的影响
    ) b0 X, \# b% a& q* `3 O% X
    % N% J; U5 i( s' ]XGBoost的缺点: **6 H0 `2 @/ F' n/ L. B' \# ?
    **◆ 空间复杂度过高,需要储存特征值和特征对应样本的梯度统计值
    7 w+ a& [1 V" j1 r————————————————9 h  B$ U  k* }9 v" t
    版权声明:本文为CSDN博主「wuxiaopengnihao1」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    + b3 O2 _0 |) j. w( r, _原文链接:https://blog.csdn.net/wuxiaopengnihao1/article/details/126686410% \0 T: `6 I, H; h1 e$ W
    7 f6 R" m8 j, h8 O4 `) S% D
      Y& l* y) M3 L6 o* ~+ F) P1 V
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-14 12:15 , Processed in 0.560709 second(s), 51 queries .

    回顶部