QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2727|回复: 0
打印 上一主题 下一主题

[其他资源] Python机器学习-多元分类的5种模型

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-5 16:26 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    # Q, \2 p$ \5 e/ ?* K- |
    Python机器学习-多元分类的5种模型
    7 [/ X$ J. |, b+ u& f! ~  P: b# z3 v0 u/ S2 r
    最近上了些机器学习的课程,于是想透过Kaggle资料集来练习整个资料科学专案的流程,在模型训练阶段,虽然听过许多分类模型,但不是很了解其各别的优缺点与适合的使用时机,所以想来整理一篇文章,统整上课学习与网路资料,作为后续专案的优化方向!
    : M" P0 ?* V1 ?  G6 t' S& y6 ~' O& a  {' J+ r6 M
    首先,机器学习主要分为「监督式学习」与「非监督式学习」,两者的差异在于资料是否有「标签」。8 ~8 u3 ?# K/ C/ v% H- w

    6 ?0 U8 l4 m8 c7 T  C监督式学习(Supervised Learning):给予「有标签」的资料,举例来说:给机器一堆苹果和橘子的照片,并说明哪些是苹果、哪些是橘子,再拿一张新的照片询问机器这是苹果还是橘子,而监督式学习又可分为回归(Regression)和分类(Classification)。# ?. k4 o4 o: f  Z( [" u. b

    ! \. {! W' o3 E# U7 {# I非监督式学习(Unsupervised Learning):给予「无标签」的资料,让机器找出潜在的规则,举例来说:给予机器一堆苹果和橘子的照片,但没有告诉机器这些照片各别是哪种水果,让机器自行找到资料间的相似性,而非监督式学习又可分为分群(Clustering)和降维(Dimension Reduction)。
    * @+ E4 `% V( N% w2 q% L5 C$ g! L5 e
    这篇文章会以监督式学习中的分类模型为主。4 P6 h$ B8 }2 U

    ' }: G8 h! K. Z6 l" K一、逻辑回归(Logistic Regression)
    ( H, h7 d, U$ `+ \逻辑回归是个二元分类(Binary Classification)的模型,并有其对应的机率值,举例:明天会下雨的机率有90%。
    " S- w* N$ S, }8 e
    ; L( q" U8 M1 L9 ~! b7 n基本概念是利用线性回归线(Linear Regression Line),将资料分为A/B两类,再透过Sigmoid Function (or Logistic Function) 输出A类别的机率值(0~1),若机率>0.5则判断为A类别,因为是二元分类,所以当机率<0.5则被归类为B类别。+ U6 F$ s% j- \& Q. ~+ y6 d# s$ @
    ) o% a. F0 V: b3 x5 {3 }, }0 M
    若需处理多元分类问题,有两种方法:
    ( t% H1 |4 D8 _0 S1. One versus Rest (or One versus All):将每个分类与其他剩余的资料做比较,若有N个类别,就需要N个二元分类器。以下方图例来说明,若有类别1~3,每次各使用一个类别与剩余的两个类别作二元分类后,会得到三个分类器,预测时把资料放到三个分类器中,看哪个分类器的分数较高,就判断为该类别。
    4 g2 g( k& A0 Z5 O  S
    1 E: I( c, v6 F, u, [One versus Rest Example (Source from Internet)
    3 k9 m0 P  U  U7 \( X* p7 Y$ G3 b4 _- I4 r' M1 T6 g
    2. One versus One:每次选择两个类别做分类,若有N个类别,就会有N*(N-1)/2个分类器,将每次分类的结果做投票,最后判断为票数最高的那个类别。举下方图例来说,有三个类别,会有三组分类器,最后新资料会判断为票数较高的类别1。* e; [9 e# l- `/ h  ?
    8 t) j& R* d1 e. R; ~7 J" }
    One versus One Example (Source from Internet)
    8 o+ s0 h% v2 {5 ~8 N
    2 X) _) G: b3 s) J, P& KLogistic Regression的优点:
    7 a; H8 t+ o5 d◆ 资料线性可分(包含在高维度空间找到linear plane)
    ( P; l3 D+ Q. ?- E5 m6 b; n◆ 除了分类,也可以得到A/B两类的机率0 Y& ^4 a) x( U. X' U
    ◆ 执行速度较快: H+ n0 s# b9 ~: j8 M5 w

    2 @; h* Y  {4 A0 M' bLogistic Regression的缺点:
    5 Q% D1 h& B: L1 }3 @◆ 线性回归线的切法可能不够漂亮$ B$ ]" Z9 F8 [. [
    ◆ 不能很好地处理大量、多类特征+ f( |8 B5 m. u8 ~, E
    8 M  R1 l* X. v, |/ V  w
    二、 支持向量机( 支持向量机,SVM)
    5 A# W( E' G( W9 h  D支持向量机(Support Vector Machine)是在寻找一个超平面(Hyper-plane)来做分类,并使两个类别之间的边界距离最大化(会忽略异常点Outlier)。
    # h0 |5 ~, n* N3 v- ]8 N2 j- V9 G7 g. M8 D
    SVM也可使用于非线性分类(如下图B),透过Kernels functions将低维空间转换为高维空间,让资料可以在高维空间被线性分类。想像红色球的重量比蓝色球还重,在平面上一拍,让球往上弹,重量重的红色球会较快落下,在立体空间就可以找出个平面来切分红色和蓝色球。. e" @* ~6 n: P! k

    . o% u2 }7 U. c7 r7 g4 `1 WSupport Vector Machine Example (Source from Internet)
    * C2 m+ h8 N. E# h; }3 t8 H
    6 w& {' l4 Q  f2 s( Y3 TSVM的优点:
    ( t" R$ A1 i; {' q. N3 ~9 ?◆ 切出来的线或平面很漂亮,拥有最大边界距离(margin)4 e" m: w  z1 R% L1 d: I3 b
    ◆ 在高维空间可以使用(即使维度数大于样本数也有效)
    : ?$ C0 `9 {, b* E& }7 p) c◆ 在资料量较小、非线性、高维度与局部最小点等情况下有相对的优势' t6 Z8 d9 T8 }) s$ ^& X: n
    ; ]- p- g- H% T" ?( d* `2 r& Z& ^4 E
    SVM的缺点:3 b4 G: h  Z3 G( h
    ◆ 当资料太多时,所需的训练时间太长,而使效果不佳8 f+ p" I9 H/ B% x6 A
    ◆ 当资料集有太多noise时(如目标类别有重叠),预测的效果也会不好/ p6 e7 ]- u# w6 ~+ w$ @2 i4 D
    ◆ SVM不会直接提供机率的估计值
    , c. {) ?2 Y+ G2 _( {6 i8 D# r  _) D4 |' L; t! Y5 R$ }
    三、决策树(Decision Tree)
    0 K' `: ^5 h5 \; a透过模型预测可以得知某个方程式来做分类,但方程式可能很难懂或很难解释,这时需要决策树(Decision Tree),它的准确性可能没有很精准,但「解释性」高,所以决策树是一种条件式的分类器,以树状结构来处理分类问题。
    / V5 p3 p" i5 R7 \: O
    + F! d0 m8 O# a$ ~0 l  H' F, s8 H建构决策树的方式,是将整个资料集依据某个特征分为数个子资料集,再从子资料集依据某个特征,分为更小的资料集,直到子资料集都是同一个类别的资料,而该如何分类则是透过资讯熵(Entropy)和资讯增益(Information Gain)来决定。
    : g( N, r" @3 [8 k" u1 v1 o1 U4 A8 {4 q) A. X3 [9 V
    1. 资讯熵(Entropy):用来衡量资料的不纯度,若资料为同一类Entropy=0,若资料「等分」成不同类别Entropy=1。3 R- X( w; E4 x& Q

    & D" w4 y+ h/ _7 l4 B2. 资讯增益(Information Gain):用来衡量某个特征对于资料分类的能力,而建构决策树就是要找到具有最高资讯增益的分类法(得到纯度最高的分支)。简单来说,原本的资料集(High Entropy=E1),经过分类,得到多个资料集(Low Entropy=E2),其中的E1-E2=Information Gain。- B6 g) n% t$ G+ p

    5 h5 `1 v9 q" y/ K  F# k2 ~Decision Tree的优点:5 w, I8 B# Z& B2 ]
    ◆ 决策树容易理解和解释0 a9 i5 q( j/ Q  m
    ◆ 资料分类不需要太多的计算
    + D: C# ]$ d* `  p0 U% h◆ 可以处理连续值和离散值* J% _: {5 q$ G! ?
    ◆ 资料准备相对比较容易
    6 `1 D1 @; t: G" `9 G(不需要做特征标准化、可以处理合理的缺失值、不受异常值的影响)9 i% R6 H0 x- E( l/ J7 D
    ◆ 因为解释性高,能用在决策分析中,找到一个最可能达到目标的策略: W+ P! P- b. o

    ' Z/ t  L( Q1 cDecision Tree的缺点: **
    # G) s2 N: ]9 H0 j9 g" O+ `4 s**◆ 容易过度拟合(Over-fitting)
    * K; o1 T: l( C7 _! V◆ 若类别太多,但资料量太少,效果比较差
    7 [( ]7 `! P9 c/ X; ^- U8 R1 v  a( N7 D! R+ X) l% n
    四、随机森林(Random Forest)
    # z" S: Z% Q  r" Z, p: f% V随机森林,是取部分特征与部分资料产生决策树,每重复此步骤,会再产生一颗决策树,最后再进行多数决投票产生最终结果。
    : }0 \' e! O$ A5 Q" R  p8 W0 C* P: K% j& T6 O: i; n
    随机森林可以降低决策树有过拟合的问题,因为最终结果是对所有的决策树结果进行投票,进而消除了单棵决策树的偏差。2 E. I( o4 L% r, @( E' n
    ) }% t) @: W9 c& v9 d
    Random Forest Example (Source from Internet)
    5 s0 Z! F; Y4 U! d6 T/ o- M3 T( W
    ' o6 o. W" l  ]. Y/ F2 dRandom Forest的优点:2 ]0 x* k7 x& V( @
    ◆ 随机森林的决策树够多,分类器就不会过拟合
    ' w4 g% S& h/ X6 T# ^8 R◆ 每棵树会用到的资料和特征是随机决定的  r/ G5 N6 `% }6 ^& i
    ◆ 训练或预测时每棵树都能平行化的运行
    / ~* n/ \% u9 m8 v. b7 I/ ^1 u# J- y: Z
    Random Forest的缺点: **
    1 F* D9 \% S' u6 Y; F**◆ 当随机森林中的决策树个数很多时,训练时需要的空间和时间会比较大7 H. {& T8 ^: M/ L* L

    - T. C3 M, _- H7 x7 S2 ^: z五、极限梯度提升(eXtreme Gradient Boosting, XGBoost)& J9 \, }: f: h. J' r
    其实会想写这篇文章,是因为在使用Kaggle资料做练习时,发现网站上有需多人使用XGBClassifier做分类预测,因此想进一步了解这个模型。3 ]$ _1 X2 \1 t& M! C! |' ?
    ( n/ C1 a5 b0 Q9 T3 P4 O" b8 T
    XGBoost的两个主要概念:
    ( m$ L8 K2 D$ O' S. a% t; j/ E) W" i0 G' U9 z4 h8 q
    1. 回归树(Classification and Regression Tree, CART)
      e. ]0 Z/ C; \% U* i1 n! d5 F回归树拥有和决策树一样的分支方式,并在各个叶端(Leaf)有一个预测分数(Prediction Score),且回归树是可以做集成的,也就是把资料丢到所有树中,把得到的预测分数加总。
    2 N: G% X/ W( i( e
    4 D5 o+ l& [' H- j; w2. 梯度提升
    / r# L+ G" v$ C1 S# C" p$ P先以常数作为预测,在之后每次预测时新加入一个学习参数,要找出最佳参数,是在每次迭代中,使用贪婪演算法计算Gain,并找出最佳分支做新增,并对负Gain的分支做删减(详细请参考文章1说明)。换句话说,就是「希望后面生成的树,能够修正前面一棵树犯错的地方」。
    5 ]) s  P5 b% d5 G% Z5 e
      A8 Q! k- F" Z/ C2 w$ u/ ?Random Forest 和XGBoost 差异如下图例:7 q! P# X, z: N8 V" J
    Random Forest是由多个决策树所组成,但最终分类结果并未经过加权平均;而XGBoost是由连续的决策树所建构,从错误的分类中学习,并在后续的决策树中增加更高的权重。, s, s! j* D# v& ~, A/ O/ C
    7 {% |) o/ N7 n# a- E4 a
    Random Forest and XGBoost Difference (Reference: 參考文章3)& o; e% R9 n2 I3 z
    7 U) {( ], k2 ], c4 c0 X
    XGBoost的优点:3 S" z9 K$ \8 P- Y4 V* X
    ◆ 在损失函数中加入正则项,控制模型的复杂度,防止过拟合现象
    " C% w4 G0 d8 u9 @, P◆ 在每次迭代后,会将叶子节点的权重乘上该系数,来削弱每棵树的影响* f- t6 ?0 r) _/ S; y* J4 o

    - N" @+ q% k; t5 eXGBoost的缺点: **. k  J0 z! M: j
    **◆ 空间复杂度过高,需要储存特征值和特征对应样本的梯度统计值
    " I" ~, u4 z, x2 C) ]+ d2 L. L————————————————0 L* U0 Y. Q0 Y" v  A7 |
    版权声明:本文为CSDN博主「wuxiaopengnihao1」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。. f" J" X* m) Z# Z# x
    原文链接:https://blog.csdn.net/wuxiaopengnihao1/article/details/126686410
    2 I& p: o. l! i) c; {6 w& Y% [
    ' a" P) b  E! n
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-13 03:07 , Processed in 0.625821 second(s), 50 queries .

    回顶部