QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2752|回复: 0
打印 上一主题 下一主题

[其他资源] Python机器学习-多元分类的5种模型

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-5 16:26 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    " R' W6 u3 Y- t/ R/ GPython机器学习-多元分类的5种模型( g( j9 w8 U2 \/ `( t1 V

    , P: E4 D4 Z; V( j最近上了些机器学习的课程,于是想透过Kaggle资料集来练习整个资料科学专案的流程,在模型训练阶段,虽然听过许多分类模型,但不是很了解其各别的优缺点与适合的使用时机,所以想来整理一篇文章,统整上课学习与网路资料,作为后续专案的优化方向!/ Q5 i0 ~- S5 @3 B
    & n: D" y' C, q
    首先,机器学习主要分为「监督式学习」与「非监督式学习」,两者的差异在于资料是否有「标签」。6 D8 [/ W! x8 h4 R  ^

    $ s- R8 m+ Y' n监督式学习(Supervised Learning):给予「有标签」的资料,举例来说:给机器一堆苹果和橘子的照片,并说明哪些是苹果、哪些是橘子,再拿一张新的照片询问机器这是苹果还是橘子,而监督式学习又可分为回归(Regression)和分类(Classification)。
    7 [# F; h5 _+ X1 @" I; {0 U' q. d6 q
    非监督式学习(Unsupervised Learning):给予「无标签」的资料,让机器找出潜在的规则,举例来说:给予机器一堆苹果和橘子的照片,但没有告诉机器这些照片各别是哪种水果,让机器自行找到资料间的相似性,而非监督式学习又可分为分群(Clustering)和降维(Dimension Reduction)。8 j( N/ U; g7 {! O+ y( f6 ^  Z
    4 x! d: V. ?: k. X  U0 A6 \
    这篇文章会以监督式学习中的分类模型为主。5 |* [3 y1 ?$ Z: Z0 R

    5 {9 y: z5 E5 r3 l一、逻辑回归(Logistic Regression)" f& }6 c# e0 X3 I( K
    逻辑回归是个二元分类(Binary Classification)的模型,并有其对应的机率值,举例:明天会下雨的机率有90%。; q4 S9 J3 {$ y; u* E4 r: w

    / c5 p* l* h5 \7 L基本概念是利用线性回归线(Linear Regression Line),将资料分为A/B两类,再透过Sigmoid Function (or Logistic Function) 输出A类别的机率值(0~1),若机率>0.5则判断为A类别,因为是二元分类,所以当机率<0.5则被归类为B类别。
    " W" f7 h5 N3 ^' P) J2 l  [( f9 G2 c, o- K6 f5 e
    若需处理多元分类问题,有两种方法:' I7 Z$ \5 y1 X+ d$ A
    1. One versus Rest (or One versus All):将每个分类与其他剩余的资料做比较,若有N个类别,就需要N个二元分类器。以下方图例来说明,若有类别1~3,每次各使用一个类别与剩余的两个类别作二元分类后,会得到三个分类器,预测时把资料放到三个分类器中,看哪个分类器的分数较高,就判断为该类别。
    8 c, _& a& H  }1 }2 s  q) [8 y; I2 D) j% e7 U5 b6 ]1 d
    One versus Rest Example (Source from Internet)8 a) w- h( [% L# T5 Z/ ^

    5 F: r9 B% v: w' o1 A- O2 t9 o. @2. One versus One:每次选择两个类别做分类,若有N个类别,就会有N*(N-1)/2个分类器,将每次分类的结果做投票,最后判断为票数最高的那个类别。举下方图例来说,有三个类别,会有三组分类器,最后新资料会判断为票数较高的类别1。
    - r2 w4 r* j9 n2 g, g& p
    9 [/ h: x/ B& m0 W# s% Y: C; y( uOne versus One Example (Source from Internet)
    6 r  A* B$ G8 @2 c
    3 u3 ?! Q: |7 Q. ]6 E" `Logistic Regression的优点:* N8 t: ~9 x* F2 I2 b
    ◆ 资料线性可分(包含在高维度空间找到linear plane)
    , _) Z0 D2 B* }1 J# Z◆ 除了分类,也可以得到A/B两类的机率1 i/ W$ j6 y6 h! }7 O
    ◆ 执行速度较快
    , H, e8 X* {/ _+ Y4 P! N; h% Q0 j9 i# s# A  t5 u
    Logistic Regression的缺点:7 w1 s0 ]4 @2 E" f
    ◆ 线性回归线的切法可能不够漂亮+ [0 v- a3 m$ w- U& U) Z' F7 S
    ◆ 不能很好地处理大量、多类特征
    1 x6 y% L  j8 F; n; g+ ^6 _! y3 F' i# M
    二、 支持向量机( 支持向量机,SVM)
    / I+ Z" ~  I! s" B+ r支持向量机(Support Vector Machine)是在寻找一个超平面(Hyper-plane)来做分类,并使两个类别之间的边界距离最大化(会忽略异常点Outlier)。( ~3 B. s) K" X1 j4 N- f# I

    $ o  R6 g  c# @SVM也可使用于非线性分类(如下图B),透过Kernels functions将低维空间转换为高维空间,让资料可以在高维空间被线性分类。想像红色球的重量比蓝色球还重,在平面上一拍,让球往上弹,重量重的红色球会较快落下,在立体空间就可以找出个平面来切分红色和蓝色球。" N' y: K8 l4 V, a

    ! z) _5 J1 }# V) c7 SSupport Vector Machine Example (Source from Internet)
    2 g8 h( i! N$ V: p0 U+ \  D, a7 \* Q. a
    SVM的优点:
    " o( |# O  E/ M  C8 d, a◆ 切出来的线或平面很漂亮,拥有最大边界距离(margin)
    : r% {  }- ~7 M◆ 在高维空间可以使用(即使维度数大于样本数也有效)8 B/ ^6 \- k' a1 S# x
    ◆ 在资料量较小、非线性、高维度与局部最小点等情况下有相对的优势
    7 f0 {2 s8 E2 i; |/ n6 b8 O
    , W$ x. S% ^2 j3 uSVM的缺点:9 }) K# n1 A  o6 D. p* E0 N
    ◆ 当资料太多时,所需的训练时间太长,而使效果不佳
    9 j  p- I* M* E- O/ o◆ 当资料集有太多noise时(如目标类别有重叠),预测的效果也会不好9 D$ }3 p3 j; H4 R; Y
    ◆ SVM不会直接提供机率的估计值2 J" Q$ |1 U/ Q4 }0 d2 t' A
    - a# j# Y+ g8 u  E3 V; O/ |+ Z
    三、决策树(Decision Tree)
    8 W8 U! f+ u3 }. X+ \6 @" ?/ K透过模型预测可以得知某个方程式来做分类,但方程式可能很难懂或很难解释,这时需要决策树(Decision Tree),它的准确性可能没有很精准,但「解释性」高,所以决策树是一种条件式的分类器,以树状结构来处理分类问题。
    - S/ {- h9 c- ?5 {/ a' |  _9 F# n1 U1 o3 `- [& U
    建构决策树的方式,是将整个资料集依据某个特征分为数个子资料集,再从子资料集依据某个特征,分为更小的资料集,直到子资料集都是同一个类别的资料,而该如何分类则是透过资讯熵(Entropy)和资讯增益(Information Gain)来决定。
    - [# D0 n6 ]* x5 {' b. Y$ _
    % G4 `: T6 h+ @5 y* Q1. 资讯熵(Entropy):用来衡量资料的不纯度,若资料为同一类Entropy=0,若资料「等分」成不同类别Entropy=1。
    1 l  x7 @" C+ I4 r" C( J$ E4 ^) D- y2 u7 v3 h
    2. 资讯增益(Information Gain):用来衡量某个特征对于资料分类的能力,而建构决策树就是要找到具有最高资讯增益的分类法(得到纯度最高的分支)。简单来说,原本的资料集(High Entropy=E1),经过分类,得到多个资料集(Low Entropy=E2),其中的E1-E2=Information Gain。
    4 {) e! X2 h, H8 e- S# J' u+ x% X( K+ h9 ?7 A8 _$ A( Q
    Decision Tree的优点:
    3 a: [$ w& P' c7 M◆ 决策树容易理解和解释
    ' H% C, w5 @6 F◆ 资料分类不需要太多的计算! W8 {' ?$ `  V) e- ~
    ◆ 可以处理连续值和离散值+ L" w. K1 v/ n. y9 G; W- E
    ◆ 资料准备相对比较容易- j+ Z: |3 \+ S9 `  N
    (不需要做特征标准化、可以处理合理的缺失值、不受异常值的影响)5 L* e2 p) @; k3 `
    ◆ 因为解释性高,能用在决策分析中,找到一个最可能达到目标的策略" Q5 }; j" V+ [0 [4 L

    9 B  m+ U0 H. J+ ADecision Tree的缺点: **
    - o: K3 a$ F, c8 T6 {; M**◆ 容易过度拟合(Over-fitting)
    + E# F- @  S) D. h% t6 X◆ 若类别太多,但资料量太少,效果比较差
    # d/ }. s# d  [% r4 I  [* H
    2 _' z1 |& V$ c1 b* h# `! Y四、随机森林(Random Forest)3 F3 x7 V+ d) Q7 s1 Z
    随机森林,是取部分特征与部分资料产生决策树,每重复此步骤,会再产生一颗决策树,最后再进行多数决投票产生最终结果。
    2 p6 A" ]( x  k8 @0 w2 p) G; U7 g. o' g/ N' Y% x* p: G% i
    随机森林可以降低决策树有过拟合的问题,因为最终结果是对所有的决策树结果进行投票,进而消除了单棵决策树的偏差。
    3 V' g+ b" @: k0 W! O, r% l0 |$ R3 a  B/ D5 Z- M4 o) [
    Random Forest Example (Source from Internet)
    4 b+ T  U, h0 E" f; [
    5 {' V1 @) s9 Y  t3 C1 O' aRandom Forest的优点:
    ; D% V9 k, |, s6 t◆ 随机森林的决策树够多,分类器就不会过拟合
    + b1 C! A* _6 |2 O- \6 }0 k* x◆ 每棵树会用到的资料和特征是随机决定的
    0 u( w3 t3 k) z" K◆ 训练或预测时每棵树都能平行化的运行: }, y* O2 V, e% W3 W- r  p$ l

    4 V7 b6 V2 r4 `; E4 aRandom Forest的缺点: **& _, E% R# |7 z  k: v
    **◆ 当随机森林中的决策树个数很多时,训练时需要的空间和时间会比较大. S, ~- A: ]. X+ U5 S9 v
    . D) q' i) a) H! ?: Z7 _( p, @: ~
    五、极限梯度提升(eXtreme Gradient Boosting, XGBoost)8 ]$ K9 g3 n- z) h7 h
    其实会想写这篇文章,是因为在使用Kaggle资料做练习时,发现网站上有需多人使用XGBClassifier做分类预测,因此想进一步了解这个模型。: w/ X6 `. P. m7 X* v7 s% H% U( E
    ) ]* n, p1 c) [% d% w2 H6 D
    XGBoost的两个主要概念:
    0 {, Q& Y3 j0 K& U- k3 A% g. f- C. F9 _- f5 I
    1. 回归树(Classification and Regression Tree, CART)+ h9 B8 j# }6 R1 n. L0 x. ^$ K
    回归树拥有和决策树一样的分支方式,并在各个叶端(Leaf)有一个预测分数(Prediction Score),且回归树是可以做集成的,也就是把资料丢到所有树中,把得到的预测分数加总。
    ' G+ i& c& Z2 X( n8 {# t4 \! D. F) {5 }6 |  \( B$ r
    2. 梯度提升; l8 p& e& K8 u& ^/ a7 u5 n
    先以常数作为预测,在之后每次预测时新加入一个学习参数,要找出最佳参数,是在每次迭代中,使用贪婪演算法计算Gain,并找出最佳分支做新增,并对负Gain的分支做删减(详细请参考文章1说明)。换句话说,就是「希望后面生成的树,能够修正前面一棵树犯错的地方」。0 s9 B1 }6 C3 O8 l# N3 O6 o9 u

    1 `6 [$ X9 A+ `9 `) J9 D2 |7 QRandom Forest 和XGBoost 差异如下图例:
    # N) T( {- }# L4 hRandom Forest是由多个决策树所组成,但最终分类结果并未经过加权平均;而XGBoost是由连续的决策树所建构,从错误的分类中学习,并在后续的决策树中增加更高的权重。7 N9 U9 Z$ E- v7 N: h3 x; {

    * L1 j% `! h5 S5 r( WRandom Forest and XGBoost Difference (Reference: 參考文章3)
    # F8 d, w' [0 `3 K8 q( N: |& u2 o1 f, F. [& d7 ^
    XGBoost的优点:
    8 l% K+ f  o% b6 z◆ 在损失函数中加入正则项,控制模型的复杂度,防止过拟合现象; t" e% f% z% f8 Y5 m7 P
    ◆ 在每次迭代后,会将叶子节点的权重乘上该系数,来削弱每棵树的影响
    " a5 x2 l0 a/ z1 d4 ~& c" C
    $ h+ p; e' a+ H. L8 L5 zXGBoost的缺点: **% O3 Q2 E, E5 L$ U
    **◆ 空间复杂度过高,需要储存特征值和特征对应样本的梯度统计值1 t  e, Z0 m! Q! f7 S% x: e8 D
    ————————————————' C  Y7 q* J. F) Z2 F6 X; d' x2 ~
    版权声明:本文为CSDN博主「wuxiaopengnihao1」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。- c- u2 V$ Q) H; T5 ]
    原文链接:https://blog.csdn.net/wuxiaopengnihao1/article/details/126686410
    # W7 Y" g" K: P# x' k/ H5 M) a$ ?8 ^2 ?- o, W7 E" I$ }2 K# O
    5 q/ ]7 z- z: t
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-5-25 10:41 , Processed in 0.378843 second(s), 51 queries .

    回顶部