QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2766|回复: 0
打印 上一主题 下一主题

[其他资源] Python机器学习-多元分类的5种模型

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-5 16:26 |只看该作者 |正序浏览
    |招呼Ta 关注Ta

    . s8 ?! |. t( c3 l' J7 O% NPython机器学习-多元分类的5种模型
    5 b* I5 K# i' S2 O' a+ O1 G) O/ s. q* b" \) b* }5 c" G" S
    最近上了些机器学习的课程,于是想透过Kaggle资料集来练习整个资料科学专案的流程,在模型训练阶段,虽然听过许多分类模型,但不是很了解其各别的优缺点与适合的使用时机,所以想来整理一篇文章,统整上课学习与网路资料,作为后续专案的优化方向!* R: T+ Z% A) f# f
    - P% e: W. t, Z4 P; R
    首先,机器学习主要分为「监督式学习」与「非监督式学习」,两者的差异在于资料是否有「标签」。% C% Z$ c, L7 m* y. y$ \
    / Z$ y- `* Z+ H0 r4 F9 d" u$ D
    监督式学习(Supervised Learning):给予「有标签」的资料,举例来说:给机器一堆苹果和橘子的照片,并说明哪些是苹果、哪些是橘子,再拿一张新的照片询问机器这是苹果还是橘子,而监督式学习又可分为回归(Regression)和分类(Classification)。
    9 h  ^& r  _: c- P+ n
    + w/ k* R; O# a' r" H7 A# D2 S非监督式学习(Unsupervised Learning):给予「无标签」的资料,让机器找出潜在的规则,举例来说:给予机器一堆苹果和橘子的照片,但没有告诉机器这些照片各别是哪种水果,让机器自行找到资料间的相似性,而非监督式学习又可分为分群(Clustering)和降维(Dimension Reduction)。( @5 o: u& ?! ]$ F+ N# u

    2 [3 c' P, x6 e+ Y3 K这篇文章会以监督式学习中的分类模型为主。/ I: L) W% A& h" Y& _( y

    ( ]. a1 W5 V  o) D+ S/ o- X  F一、逻辑回归(Logistic Regression)9 `( z& h, N9 ]9 O; y
    逻辑回归是个二元分类(Binary Classification)的模型,并有其对应的机率值,举例:明天会下雨的机率有90%。: l* y7 M$ ^+ f. x% A6 n( E( e  B

    - p1 C8 S6 P% @. r: k  S: m基本概念是利用线性回归线(Linear Regression Line),将资料分为A/B两类,再透过Sigmoid Function (or Logistic Function) 输出A类别的机率值(0~1),若机率>0.5则判断为A类别,因为是二元分类,所以当机率<0.5则被归类为B类别。4 K8 |" P( x3 Z* R! s2 {4 {
      {* s0 Y2 R6 p1 Q* l
    若需处理多元分类问题,有两种方法:' ^4 \: R7 {% e
    1. One versus Rest (or One versus All):将每个分类与其他剩余的资料做比较,若有N个类别,就需要N个二元分类器。以下方图例来说明,若有类别1~3,每次各使用一个类别与剩余的两个类别作二元分类后,会得到三个分类器,预测时把资料放到三个分类器中,看哪个分类器的分数较高,就判断为该类别。/ p0 |# p% U' e$ }

    : u1 s, K6 z7 Y5 t9 @/ i& I& X( tOne versus Rest Example (Source from Internet)* j  S# U6 k# G' w! Q8 P. _/ Q9 @- i

      t  q) ]: Z. ?( h2. One versus One:每次选择两个类别做分类,若有N个类别,就会有N*(N-1)/2个分类器,将每次分类的结果做投票,最后判断为票数最高的那个类别。举下方图例来说,有三个类别,会有三组分类器,最后新资料会判断为票数较高的类别1。1 Y- M& Y0 g% v& i

    3 Z3 _7 v: {3 [0 SOne versus One Example (Source from Internet)
    5 M3 Q* }" H1 @% p! A
    * z  L7 B7 g" Q' Y; X' JLogistic Regression的优点:
    , S+ M& K* P2 I+ \* g, b◆ 资料线性可分(包含在高维度空间找到linear plane)2 P, g/ E# ?, a, b
    ◆ 除了分类,也可以得到A/B两类的机率
    ! v8 }- `/ c9 m9 N2 k( Y◆ 执行速度较快
    , \8 }, d$ }% Q# @; W$ u
    $ O, e7 M$ v# D9 f1 V. P8 ]Logistic Regression的缺点:# a: f; J: h; [! t6 m
    ◆ 线性回归线的切法可能不够漂亮- k4 W2 r$ e5 T) N
    ◆ 不能很好地处理大量、多类特征9 x( P) u7 h' V

    3 P, O3 M7 E6 G0 l5 Q0 W" P二、 支持向量机( 支持向量机,SVM)
    0 f! ~# \9 U; D6 [! @4 P% o支持向量机(Support Vector Machine)是在寻找一个超平面(Hyper-plane)来做分类,并使两个类别之间的边界距离最大化(会忽略异常点Outlier)。
    ! K4 [2 [4 b; T2 z' g  i5 J. v$ a
    4 Q: W2 H/ b8 Y1 aSVM也可使用于非线性分类(如下图B),透过Kernels functions将低维空间转换为高维空间,让资料可以在高维空间被线性分类。想像红色球的重量比蓝色球还重,在平面上一拍,让球往上弹,重量重的红色球会较快落下,在立体空间就可以找出个平面来切分红色和蓝色球。
    . J  j% `$ y8 [+ g6 N4 `0 N3 S! r) S- O) c0 p9 b
    Support Vector Machine Example (Source from Internet)% |8 F. b# _5 a& B$ e1 r! P

    / C/ V/ \7 O3 i3 A! ~: t! V$ \) }SVM的优点:: T" v, b- c- c9 k
    ◆ 切出来的线或平面很漂亮,拥有最大边界距离(margin)
    & t: o5 o; b+ d% x$ \◆ 在高维空间可以使用(即使维度数大于样本数也有效)
    8 h6 C! }8 g* R2 c8 n! K◆ 在资料量较小、非线性、高维度与局部最小点等情况下有相对的优势
    4 ~# t, p5 d' m) P9 [5 `$ \, h
    " ?$ Y& ?# M) Q1 W" |' U; p; PSVM的缺点:) d7 @9 J* T& o* W1 I3 G& g
    ◆ 当资料太多时,所需的训练时间太长,而使效果不佳5 U+ I$ C7 F" v7 [2 P
    ◆ 当资料集有太多noise时(如目标类别有重叠),预测的效果也会不好+ ~+ r" W7 m1 e9 C. \4 X- f
    ◆ SVM不会直接提供机率的估计值
    $ G: V: k( y) p4 n& F7 q, p6 @$ _% V  r5 s1 r4 N5 O( w
    三、决策树(Decision Tree)
    7 k8 D4 J+ Z; d6 i7 p8 \8 ~透过模型预测可以得知某个方程式来做分类,但方程式可能很难懂或很难解释,这时需要决策树(Decision Tree),它的准确性可能没有很精准,但「解释性」高,所以决策树是一种条件式的分类器,以树状结构来处理分类问题。
    1 L" h  T2 ~6 t$ V  F: v8 s2 o) Y0 F; n
    建构决策树的方式,是将整个资料集依据某个特征分为数个子资料集,再从子资料集依据某个特征,分为更小的资料集,直到子资料集都是同一个类别的资料,而该如何分类则是透过资讯熵(Entropy)和资讯增益(Information Gain)来决定。
    6 N, A6 w6 O9 i5 q8 o6 m7 A& J3 {. x* d6 x: d  g
    1. 资讯熵(Entropy):用来衡量资料的不纯度,若资料为同一类Entropy=0,若资料「等分」成不同类别Entropy=1。5 l4 X, T2 d4 p- v( F. H+ k. `

    ' o) T! e: E! r0 p2. 资讯增益(Information Gain):用来衡量某个特征对于资料分类的能力,而建构决策树就是要找到具有最高资讯增益的分类法(得到纯度最高的分支)。简单来说,原本的资料集(High Entropy=E1),经过分类,得到多个资料集(Low Entropy=E2),其中的E1-E2=Information Gain。
    ! j, f1 E! ^4 ]+ ?  p+ f
    0 T% `5 m3 s+ J  a( b% MDecision Tree的优点:
    2 l) D. _, Q0 Z* i' `  l1 X◆ 决策树容易理解和解释
    " }8 F: Z" K! ^◆ 资料分类不需要太多的计算! m: h( d9 J+ B- H, ]8 i  h( ]
    ◆ 可以处理连续值和离散值
    $ X! w; m9 e. {4 `, U7 r, d  u2 i0 D◆ 资料准备相对比较容易8 V0 ^1 c- O+ [! l
    (不需要做特征标准化、可以处理合理的缺失值、不受异常值的影响)
    4 d3 E" M" o& y0 m◆ 因为解释性高,能用在决策分析中,找到一个最可能达到目标的策略
    " m. S$ I* D! u8 J
    5 e1 Z9 j* P1 n3 O" w# pDecision Tree的缺点: **% |5 F0 ?9 r) M. H, |/ v
    **◆ 容易过度拟合(Over-fitting)
    / {! l) z( g1 E2 m◆ 若类别太多,但资料量太少,效果比较差
    ; h3 S& |1 n' M
    ( B4 g0 _; M- Z# i) O四、随机森林(Random Forest)
    , s& Y$ ~- @5 @8 u随机森林,是取部分特征与部分资料产生决策树,每重复此步骤,会再产生一颗决策树,最后再进行多数决投票产生最终结果。- b, ~. i$ ]  n2 G

    : T4 M  D8 U5 ?3 m( K随机森林可以降低决策树有过拟合的问题,因为最终结果是对所有的决策树结果进行投票,进而消除了单棵决策树的偏差。
    3 }( b0 y- g7 k; G# e) p5 r' _" c, L# ?' W
    Random Forest Example (Source from Internet)
    * l3 I5 p% J. ~9 W
    # Z7 e6 v$ j; r7 I1 _' bRandom Forest的优点:! v( Y; f& P8 l$ F5 @- E
    ◆ 随机森林的决策树够多,分类器就不会过拟合6 {+ x, t2 B3 f; T" i% e" Y$ w4 l9 L
    ◆ 每棵树会用到的资料和特征是随机决定的
    6 ?3 T+ P6 d4 Z7 `; r◆ 训练或预测时每棵树都能平行化的运行5 y7 G, P2 B- l; R& a0 {' O
    * b/ y8 P  {* ?* _" G  C# p
    Random Forest的缺点: **
    5 }* @; q% @7 Q+ G**◆ 当随机森林中的决策树个数很多时,训练时需要的空间和时间会比较大9 G) ?  b! l1 a

    9 U% C' N$ B1 b6 S* r5 w五、极限梯度提升(eXtreme Gradient Boosting, XGBoost)' T7 J, u+ v8 W; r8 @3 H% X) l
    其实会想写这篇文章,是因为在使用Kaggle资料做练习时,发现网站上有需多人使用XGBClassifier做分类预测,因此想进一步了解这个模型。
    ( M( }6 B& w, Q) b: o: H' }
      v; [& K% V2 r# u! X6 t& n5 LXGBoost的两个主要概念:1 b- o; I; y) |* o

    0 V1 G$ t0 {/ l8 J! B1. 回归树(Classification and Regression Tree, CART)
    , k) y: {) O3 p回归树拥有和决策树一样的分支方式,并在各个叶端(Leaf)有一个预测分数(Prediction Score),且回归树是可以做集成的,也就是把资料丢到所有树中,把得到的预测分数加总。
    4 P: H( r8 w1 T5 P+ C! H; g
    " _) l: w  t- }) a9 b" x, x2. 梯度提升
    7 U4 f7 }; h# E5 h1 q# W; H先以常数作为预测,在之后每次预测时新加入一个学习参数,要找出最佳参数,是在每次迭代中,使用贪婪演算法计算Gain,并找出最佳分支做新增,并对负Gain的分支做删减(详细请参考文章1说明)。换句话说,就是「希望后面生成的树,能够修正前面一棵树犯错的地方」。
    6 [8 z! F8 Y% u& f9 j3 e: [+ ?0 ~! X; I5 }7 w+ e6 k" t
    Random Forest 和XGBoost 差异如下图例:
    ) O. ^$ |6 N1 nRandom Forest是由多个决策树所组成,但最终分类结果并未经过加权平均;而XGBoost是由连续的决策树所建构,从错误的分类中学习,并在后续的决策树中增加更高的权重。, A  n1 K) f2 G+ ?  g9 c$ Q) E

    3 V7 c) D! \% m1 o7 u" `/ w) |Random Forest and XGBoost Difference (Reference: 參考文章3)4 @+ l! D+ o0 R2 _

    - e2 J, U5 _+ ?0 mXGBoost的优点:9 o: |6 t# j& P( d+ K
    ◆ 在损失函数中加入正则项,控制模型的复杂度,防止过拟合现象
    + t; c  n2 T! L4 U; }  P  f! w2 m◆ 在每次迭代后,会将叶子节点的权重乘上该系数,来削弱每棵树的影响
    + o0 m; f! i; a0 v0 d+ N
    . v* O' K! E' U& U0 P( AXGBoost的缺点: **9 e& i8 K0 f3 p
    **◆ 空间复杂度过高,需要储存特征值和特征对应样本的梯度统计值
    0 w  [! @" q; f————————————————# V' A( t; s* ?& b8 S% `/ K
    版权声明:本文为CSDN博主「wuxiaopengnihao1」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
      t1 G' g# F6 i' o. j8 x原文链接:https://blog.csdn.net/wuxiaopengnihao1/article/details/126686410( Y+ \5 J' D( ]* X  Y2 x4 U6 h
    ) G" {5 e7 z4 P$ l, T& j2 q3 B" P
    . P4 B7 p; S: A9 Q& |1 \
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-15 04:13 , Processed in 0.426183 second(s), 53 queries .

    回顶部