QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2734|回复: 0
打印 上一主题 下一主题

[其他资源] Python机器学习-多元分类的5种模型

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-5 16:26 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    6 \# A6 `3 l$ ]8 k; ?0 x# {Python机器学习-多元分类的5种模型: B5 r. b8 U' ]% ^0 U3 b2 y
    8 T+ d: _7 s, T
    最近上了些机器学习的课程,于是想透过Kaggle资料集来练习整个资料科学专案的流程,在模型训练阶段,虽然听过许多分类模型,但不是很了解其各别的优缺点与适合的使用时机,所以想来整理一篇文章,统整上课学习与网路资料,作为后续专案的优化方向!& o% Q- d8 A! o9 J9 @/ P

    1 w5 g2 A0 ^& X& ]* Y  V! c首先,机器学习主要分为「监督式学习」与「非监督式学习」,两者的差异在于资料是否有「标签」。/ w* k' M# P' B; g8 Y; \

    ) Z8 S' r/ o: _& Q% c4 D监督式学习(Supervised Learning):给予「有标签」的资料,举例来说:给机器一堆苹果和橘子的照片,并说明哪些是苹果、哪些是橘子,再拿一张新的照片询问机器这是苹果还是橘子,而监督式学习又可分为回归(Regression)和分类(Classification)。
    4 |0 ?6 {/ E( V/ L6 r7 U* \) }; d" w, g/ T3 V
    非监督式学习(Unsupervised Learning):给予「无标签」的资料,让机器找出潜在的规则,举例来说:给予机器一堆苹果和橘子的照片,但没有告诉机器这些照片各别是哪种水果,让机器自行找到资料间的相似性,而非监督式学习又可分为分群(Clustering)和降维(Dimension Reduction)。( Z$ t0 ^; f. y; u# N
    & X: ~: M. E0 t6 I/ ?; z; j4 f/ }, I
    这篇文章会以监督式学习中的分类模型为主。# g, L3 f9 G' ?9 @7 @( l, N
    7 C$ D) g8 o5 `* Q
    一、逻辑回归(Logistic Regression)
    + w6 H$ X! r9 V  T% D% _0 _逻辑回归是个二元分类(Binary Classification)的模型,并有其对应的机率值,举例:明天会下雨的机率有90%。
    6 R7 t+ s; }& t' d2 l
    7 O5 K3 N1 ?. w基本概念是利用线性回归线(Linear Regression Line),将资料分为A/B两类,再透过Sigmoid Function (or Logistic Function) 输出A类别的机率值(0~1),若机率>0.5则判断为A类别,因为是二元分类,所以当机率<0.5则被归类为B类别。
    ( |. ?2 X  C" i9 k5 h, ?1 f9 |+ p* B4 l
    若需处理多元分类问题,有两种方法:
    5 r5 \$ @1 r% ?: z4 t# r1. One versus Rest (or One versus All):将每个分类与其他剩余的资料做比较,若有N个类别,就需要N个二元分类器。以下方图例来说明,若有类别1~3,每次各使用一个类别与剩余的两个类别作二元分类后,会得到三个分类器,预测时把资料放到三个分类器中,看哪个分类器的分数较高,就判断为该类别。" I+ L9 |" ?, ]9 V, o

    2 ]$ K2 i( w2 R! x' nOne versus Rest Example (Source from Internet)( |- W$ W# z, W- i6 j1 P
    ! ?) S+ g  a+ z  m
    2. One versus One:每次选择两个类别做分类,若有N个类别,就会有N*(N-1)/2个分类器,将每次分类的结果做投票,最后判断为票数最高的那个类别。举下方图例来说,有三个类别,会有三组分类器,最后新资料会判断为票数较高的类别1。* x# p  u7 @! l! O0 e) r4 C
    $ J& T' _) \& }3 k! t& x0 O' b
    One versus One Example (Source from Internet)
    8 s3 ]1 K* j% Q* F1 k' K2 X$ a  h* _, h  W3 F
    Logistic Regression的优点:" s$ L; V" n, J) D3 A: Q
    ◆ 资料线性可分(包含在高维度空间找到linear plane)
    5 z0 R# z/ ?* a. y  V# M3 U◆ 除了分类,也可以得到A/B两类的机率) M1 B1 k: p% t8 p: \! z. I, q
    ◆ 执行速度较快
    4 `0 i" a& Y# I
    * [! f! w2 u. l& |$ q$ fLogistic Regression的缺点:! H0 X& t; W+ s& @  ?  L$ Q
    ◆ 线性回归线的切法可能不够漂亮
      @( l( R1 }- x4 P4 t  Y5 X9 Z# d" z◆ 不能很好地处理大量、多类特征% i* J4 ~% Y) f

    # w: N& F1 m9 g+ Z二、 支持向量机( 支持向量机,SVM): y" k$ B3 ]; n+ Z* f
    支持向量机(Support Vector Machine)是在寻找一个超平面(Hyper-plane)来做分类,并使两个类别之间的边界距离最大化(会忽略异常点Outlier)。
    , n7 w% b6 V- D2 T& C3 p7 |1 N7 a0 p3 e$ Y3 F4 h- l3 Q
    SVM也可使用于非线性分类(如下图B),透过Kernels functions将低维空间转换为高维空间,让资料可以在高维空间被线性分类。想像红色球的重量比蓝色球还重,在平面上一拍,让球往上弹,重量重的红色球会较快落下,在立体空间就可以找出个平面来切分红色和蓝色球。
    8 @  l& M# R/ u) _5 i3 a+ B3 J) W7 ?, I' j: a* L* E
    Support Vector Machine Example (Source from Internet)
    4 Z( J6 f. p8 \" u/ f: i& z
    0 Z9 E/ k+ O1 XSVM的优点:
    - I: A( F- J7 o: u. V  T2 r◆ 切出来的线或平面很漂亮,拥有最大边界距离(margin)
    5 ?, w# _% O" \3 f% x8 g4 ]1 a1 S& o4 {◆ 在高维空间可以使用(即使维度数大于样本数也有效); m+ d* h& j. |: N
    ◆ 在资料量较小、非线性、高维度与局部最小点等情况下有相对的优势" P' ]3 U: ^3 s. Y+ }# L3 n
    9 m2 [& H! f' Y( m; W
    SVM的缺点:
    , ]! S$ Q9 J6 E/ ~" p◆ 当资料太多时,所需的训练时间太长,而使效果不佳
    $ Z& C3 [1 I. N( P" f# D/ X◆ 当资料集有太多noise时(如目标类别有重叠),预测的效果也会不好
    - W. X# C& u3 B  ?2 V◆ SVM不会直接提供机率的估计值
    ( l2 U/ i9 y* E$ M' c8 m2 l4 |/ L; c+ b! V+ w. S6 X
    三、决策树(Decision Tree)
    0 t4 Z" @; b0 X& c6 _9 t6 m透过模型预测可以得知某个方程式来做分类,但方程式可能很难懂或很难解释,这时需要决策树(Decision Tree),它的准确性可能没有很精准,但「解释性」高,所以决策树是一种条件式的分类器,以树状结构来处理分类问题。* z# [5 @4 j; Z7 [0 _+ j, b. U

    1 W- K2 g5 z* ^1 o: w+ M. @6 W% f建构决策树的方式,是将整个资料集依据某个特征分为数个子资料集,再从子资料集依据某个特征,分为更小的资料集,直到子资料集都是同一个类别的资料,而该如何分类则是透过资讯熵(Entropy)和资讯增益(Information Gain)来决定。
    ! h) @( ~* Y2 z7 D' {! a2 h* c3 }4 `- }9 @. _/ p
    1. 资讯熵(Entropy):用来衡量资料的不纯度,若资料为同一类Entropy=0,若资料「等分」成不同类别Entropy=1。+ t0 _6 E* F( O! c5 r) r

    . ~. k; W6 {4 H+ t) I. ~$ R2. 资讯增益(Information Gain):用来衡量某个特征对于资料分类的能力,而建构决策树就是要找到具有最高资讯增益的分类法(得到纯度最高的分支)。简单来说,原本的资料集(High Entropy=E1),经过分类,得到多个资料集(Low Entropy=E2),其中的E1-E2=Information Gain。5 J) N7 ?# m/ l0 t/ [+ W9 H& A) I  x
    / V) n7 Y* n3 y7 P5 e& w
    Decision Tree的优点:/ }, e! j) j' R
    ◆ 决策树容易理解和解释
    7 Z- L$ I4 m8 i) A' ], W9 T◆ 资料分类不需要太多的计算
    ! s; O* v- n" p) I0 [1 ^◆ 可以处理连续值和离散值8 r! p, Y( K1 o- [. q8 r1 }8 c
    ◆ 资料准备相对比较容易
    8 U% I0 S% k( Q(不需要做特征标准化、可以处理合理的缺失值、不受异常值的影响)
    . ~) {; _! ]/ V3 P+ y. b◆ 因为解释性高,能用在决策分析中,找到一个最可能达到目标的策略+ T5 k( H7 |+ g
    ' ]3 L9 j: N/ {/ Y: g; f. m
    Decision Tree的缺点: **7 E" G3 D% M' l9 D
    **◆ 容易过度拟合(Over-fitting)
    * r, O4 h- B( q. ^* A0 e◆ 若类别太多,但资料量太少,效果比较差/ k( m+ }  c8 A/ E; k( P

    3 f' L. B% Y9 N  @' x% m% M四、随机森林(Random Forest)3 Z' k( l; Z; _9 S0 Q8 _1 Y' P
    随机森林,是取部分特征与部分资料产生决策树,每重复此步骤,会再产生一颗决策树,最后再进行多数决投票产生最终结果。
    8 b% v$ C+ V3 N; |: B! B% g2 f9 G. [5 ~* J. v) X  ~4 s
    随机森林可以降低决策树有过拟合的问题,因为最终结果是对所有的决策树结果进行投票,进而消除了单棵决策树的偏差。$ @1 {; o- g, d9 I2 `$ _
    . u$ X; [' u/ e% S2 r, u
    Random Forest Example (Source from Internet)$ }& s: B* K  E/ n4 Q

    ! H3 L- ?4 A5 t7 I) y7 qRandom Forest的优点:
    0 z5 k/ g* |# h3 ]" n0 X# A◆ 随机森林的决策树够多,分类器就不会过拟合
    ' E1 {6 i. P$ L  m, ]◆ 每棵树会用到的资料和特征是随机决定的1 ~" l* `3 m8 b9 h; D, L
    ◆ 训练或预测时每棵树都能平行化的运行
    : U, u+ x& c( g& K* Z' u7 s& |
    ! q& @1 p4 ?) o- dRandom Forest的缺点: **/ b/ v/ E4 B7 J) h) \
    **◆ 当随机森林中的决策树个数很多时,训练时需要的空间和时间会比较大0 J3 D; I' L, H

    . @9 m' F8 X5 w) r5 W9 Q五、极限梯度提升(eXtreme Gradient Boosting, XGBoost)
    9 c6 x" ^# i. o9 e% A- g3 U其实会想写这篇文章,是因为在使用Kaggle资料做练习时,发现网站上有需多人使用XGBClassifier做分类预测,因此想进一步了解这个模型。
    . o# ~5 i& f/ `, _
    / [- V' H8 B9 X- q) }: h" nXGBoost的两个主要概念:, [8 }. r7 T8 a" ~* [: Q0 X! W

    ) D( b( X* S7 D* n; Z1. 回归树(Classification and Regression Tree, CART), B3 s: B, j3 H! \$ H) a  Q
    回归树拥有和决策树一样的分支方式,并在各个叶端(Leaf)有一个预测分数(Prediction Score),且回归树是可以做集成的,也就是把资料丢到所有树中,把得到的预测分数加总。
    8 R* b- m( T, Z% L) o2 O9 U, |( D! v% Y$ M; M4 _6 J
    2. 梯度提升
    4 p5 c4 {7 E) {+ o* U9 c先以常数作为预测,在之后每次预测时新加入一个学习参数,要找出最佳参数,是在每次迭代中,使用贪婪演算法计算Gain,并找出最佳分支做新增,并对负Gain的分支做删减(详细请参考文章1说明)。换句话说,就是「希望后面生成的树,能够修正前面一棵树犯错的地方」。
    ' ?' U- l3 h4 }4 L2 o+ s
    $ {2 d* d1 P" L# M, pRandom Forest 和XGBoost 差异如下图例:2 M* Z' N2 x' s6 p1 H) L- ^+ N. C
    Random Forest是由多个决策树所组成,但最终分类结果并未经过加权平均;而XGBoost是由连续的决策树所建构,从错误的分类中学习,并在后续的决策树中增加更高的权重。+ q: b6 m1 j7 ?/ D5 k2 {
    # ?8 s( U3 ?) Z! k) ?0 J
    Random Forest and XGBoost Difference (Reference: 參考文章3)
    2 f& ~3 _, }& c( v! P3 R9 K( N7 i. |& q4 z* V8 f
    XGBoost的优点:2 ?3 l" X( S( B1 E1 m  c
    ◆ 在损失函数中加入正则项,控制模型的复杂度,防止过拟合现象
    ) s5 G# T, N) j1 y◆ 在每次迭代后,会将叶子节点的权重乘上该系数,来削弱每棵树的影响% T! X0 ^0 H) h- |" u* E9 F% v  U

    + v$ U1 @9 ]3 T  {XGBoost的缺点: **
    " \! v' i" |" r' z6 g**◆ 空间复杂度过高,需要储存特征值和特征对应样本的梯度统计值5 X9 \/ A7 n# p, J; @
    ————————————————
    - j# q2 X! i+ R: G5 Q/ G' T版权声明:本文为CSDN博主「wuxiaopengnihao1」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    0 F; x5 L  G! I5 f8 B+ g原文链接:https://blog.csdn.net/wuxiaopengnihao1/article/details/1266864104 Q" r! }" M" b/ V7 O
    7 g2 Z$ ^, @- L5 B9 B! t9 f
      M; Q/ U) \: p
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-21 03:06 , Processed in 0.436864 second(s), 51 queries .

    回顶部