QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2199|回复: 0
打印 上一主题 下一主题

[其他资源] Python机器学习-多元分类的5种模型

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-5 16:26 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    * S5 T" l  s) A6 Q1 D
    Python机器学习-多元分类的5种模型( u# Q  `! M4 W

    6 C+ f3 R0 [% J; J( O9 M最近上了些机器学习的课程,于是想透过Kaggle资料集来练习整个资料科学专案的流程,在模型训练阶段,虽然听过许多分类模型,但不是很了解其各别的优缺点与适合的使用时机,所以想来整理一篇文章,统整上课学习与网路资料,作为后续专案的优化方向!5 W* |. V2 {) z$ D

    ( r2 t# H" h) I" Z首先,机器学习主要分为「监督式学习」与「非监督式学习」,两者的差异在于资料是否有「标签」。
    ! ^1 D* h, U/ }( I1 W. z2 [; w$ ^
    监督式学习(Supervised Learning):给予「有标签」的资料,举例来说:给机器一堆苹果和橘子的照片,并说明哪些是苹果、哪些是橘子,再拿一张新的照片询问机器这是苹果还是橘子,而监督式学习又可分为回归(Regression)和分类(Classification)。+ k9 t2 E" ^; Z+ u3 L# u

    & N8 }& e& J2 [1 n+ b! v非监督式学习(Unsupervised Learning):给予「无标签」的资料,让机器找出潜在的规则,举例来说:给予机器一堆苹果和橘子的照片,但没有告诉机器这些照片各别是哪种水果,让机器自行找到资料间的相似性,而非监督式学习又可分为分群(Clustering)和降维(Dimension Reduction)。
    6 N) H* e* J8 `& `5 C: {7 m3 l2 r! K
    ( |8 Z5 h# R: {- Y$ ]这篇文章会以监督式学习中的分类模型为主。
    / F, ^6 z% v, f! w7 J- a  y# K% b$ f. {5 O1 `& j% d7 e' H6 w  q
    一、逻辑回归(Logistic Regression)# D5 B6 r0 J% _7 X% b% @
    逻辑回归是个二元分类(Binary Classification)的模型,并有其对应的机率值,举例:明天会下雨的机率有90%。$ t- K+ N4 t8 T7 u5 n5 \4 v

    ( ?. A: I: d( i0 z基本概念是利用线性回归线(Linear Regression Line),将资料分为A/B两类,再透过Sigmoid Function (or Logistic Function) 输出A类别的机率值(0~1),若机率>0.5则判断为A类别,因为是二元分类,所以当机率<0.5则被归类为B类别。
    . S" G! {4 x% i3 d: R& |* O! y) w5 B: Y
    若需处理多元分类问题,有两种方法:
    " l% p3 v- I1 ^6 |- v+ L1. One versus Rest (or One versus All):将每个分类与其他剩余的资料做比较,若有N个类别,就需要N个二元分类器。以下方图例来说明,若有类别1~3,每次各使用一个类别与剩余的两个类别作二元分类后,会得到三个分类器,预测时把资料放到三个分类器中,看哪个分类器的分数较高,就判断为该类别。* |1 B# x3 d% |0 k) _, l
    0 e. H4 \. J( Y7 I
    One versus Rest Example (Source from Internet)
    * c8 S/ y/ A! b+ u. C
    7 e" E0 f! ~6 l1 }5 ]  f2. One versus One:每次选择两个类别做分类,若有N个类别,就会有N*(N-1)/2个分类器,将每次分类的结果做投票,最后判断为票数最高的那个类别。举下方图例来说,有三个类别,会有三组分类器,最后新资料会判断为票数较高的类别1。
    8 o/ X1 K+ c7 f  f; q3 c- T
    7 L+ u: {. i5 e) v) O; @One versus One Example (Source from Internet)
    5 Z( q: {3 M8 Q( `% j& r; J/ ^
    ) W; ~; J$ @- k0 I* A8 _. |6 v, P1 g) L3 n5 FLogistic Regression的优点:
    ( H/ M3 j8 R4 p3 ^' P; X◆ 资料线性可分(包含在高维度空间找到linear plane)
    : Y" {! b3 f) s) I◆ 除了分类,也可以得到A/B两类的机率
    9 b1 b4 ?1 {2 Z◆ 执行速度较快
    9 r5 [& W3 V1 B
    # b$ u5 _: Y+ n! a- I7 J( {: BLogistic Regression的缺点:( Y' `# p" y" Z; x! F+ V; ~3 b
    ◆ 线性回归线的切法可能不够漂亮
    8 a& F$ f* q1 a0 V3 G◆ 不能很好地处理大量、多类特征
    ' r! H$ c/ P2 v7 b+ S# ?2 W0 r8 `; v0 D3 W2 z( x
    二、 支持向量机( 支持向量机,SVM)
    9 L. K- Q. L5 T3 K3 d0 Y/ M+ G4 l支持向量机(Support Vector Machine)是在寻找一个超平面(Hyper-plane)来做分类,并使两个类别之间的边界距离最大化(会忽略异常点Outlier)。* e; P( s9 {7 c- F  ?' ?

    ' d( X# d6 `+ YSVM也可使用于非线性分类(如下图B),透过Kernels functions将低维空间转换为高维空间,让资料可以在高维空间被线性分类。想像红色球的重量比蓝色球还重,在平面上一拍,让球往上弹,重量重的红色球会较快落下,在立体空间就可以找出个平面来切分红色和蓝色球。
    7 o# p) N6 T" f5 F+ V
    1 k$ @2 S! g, SSupport Vector Machine Example (Source from Internet)! d8 @+ `' Q) L$ U5 g
    " L# y% ^; ?1 v! X
    SVM的优点:
    % H* j/ q9 Y( |( f+ ~3 c+ E◆ 切出来的线或平面很漂亮,拥有最大边界距离(margin)0 W7 J( i; n& d+ p, Z  }: }1 T
    ◆ 在高维空间可以使用(即使维度数大于样本数也有效)
    ! v% V- m" j3 F- [◆ 在资料量较小、非线性、高维度与局部最小点等情况下有相对的优势
    + {# {0 Z! M+ }0 b9 |3 d6 i* n& ~) v; q) t
    SVM的缺点:4 r1 p6 J" m2 p( F9 `3 X! v/ u; J; q3 c
    ◆ 当资料太多时,所需的训练时间太长,而使效果不佳
    + e  k+ Z1 B! F8 ?◆ 当资料集有太多noise时(如目标类别有重叠),预测的效果也会不好
    ( X4 b3 u1 C7 D- d- s& P# w" ~+ U◆ SVM不会直接提供机率的估计值1 r" b; G4 g( `7 e

    6 T& V" P& [4 n6 F5 H" N三、决策树(Decision Tree)
    ! O5 I/ }0 V' m& O+ J, k7 C透过模型预测可以得知某个方程式来做分类,但方程式可能很难懂或很难解释,这时需要决策树(Decision Tree),它的准确性可能没有很精准,但「解释性」高,所以决策树是一种条件式的分类器,以树状结构来处理分类问题。
    ! {! R( \& w1 u7 \
    , Z. ~  e5 k$ U: t- q( _建构决策树的方式,是将整个资料集依据某个特征分为数个子资料集,再从子资料集依据某个特征,分为更小的资料集,直到子资料集都是同一个类别的资料,而该如何分类则是透过资讯熵(Entropy)和资讯增益(Information Gain)来决定。. J7 j" {/ p  A) ~, P% L
    + r8 m/ i* I1 d
    1. 资讯熵(Entropy):用来衡量资料的不纯度,若资料为同一类Entropy=0,若资料「等分」成不同类别Entropy=1。
    0 u8 W# ]: C& E  _( u
    0 H2 t* s" e  ]! b2. 资讯增益(Information Gain):用来衡量某个特征对于资料分类的能力,而建构决策树就是要找到具有最高资讯增益的分类法(得到纯度最高的分支)。简单来说,原本的资料集(High Entropy=E1),经过分类,得到多个资料集(Low Entropy=E2),其中的E1-E2=Information Gain。5 U8 S: T1 @0 T

      `1 x# G% Y& `7 X8 z- p% D8 xDecision Tree的优点:# j- s# |  s+ M
    ◆ 决策树容易理解和解释" s! Y. ^' }0 [) x% |4 ~5 w
    ◆ 资料分类不需要太多的计算
    + R7 R" m  N) j4 }+ N& I4 G◆ 可以处理连续值和离散值. ]/ f1 ^7 e: X7 v  k# {
    ◆ 资料准备相对比较容易" O1 _1 i* r7 g8 }# i9 v: R
    (不需要做特征标准化、可以处理合理的缺失值、不受异常值的影响)
    ! b7 f" t8 f/ @) ~( [4 Z1 |" J◆ 因为解释性高,能用在决策分析中,找到一个最可能达到目标的策略9 i, g% b8 ~8 C0 Y$ r7 V
    6 @7 N. }8 O9 f7 `+ ^
    Decision Tree的缺点: **/ ^1 P# k# T. a, j& ^/ M1 [1 e
    **◆ 容易过度拟合(Over-fitting)
    8 ^) F+ u+ ?  O  R$ C& l' P◆ 若类别太多,但资料量太少,效果比较差5 n$ d9 g& K' L8 o2 K4 J  O9 b
    ! z+ N$ @. V7 T% {: l; b$ d, B5 l
    四、随机森林(Random Forest)
    . M+ }; M3 `7 H; m8 o" F* {( y随机森林,是取部分特征与部分资料产生决策树,每重复此步骤,会再产生一颗决策树,最后再进行多数决投票产生最终结果。; D! v2 t- `8 a$ M
    4 S( }8 w! q2 N* F$ i, F4 U
    随机森林可以降低决策树有过拟合的问题,因为最终结果是对所有的决策树结果进行投票,进而消除了单棵决策树的偏差。
    9 I" t$ g7 Z# a/ ~8 B4 n- Z0 a2 ?. f8 t- M; N
    Random Forest Example (Source from Internet)9 C8 Q( _# y, G& L; G

    7 `! B! D3 o- p; y' o1 M/ k! tRandom Forest的优点:2 x* j) ], h. a
    ◆ 随机森林的决策树够多,分类器就不会过拟合* m2 f  q" ~; O8 O, ]
    ◆ 每棵树会用到的资料和特征是随机决定的
    4 ^) ?, u0 z, I0 m( }◆ 训练或预测时每棵树都能平行化的运行
    # {3 J: |5 ?0 w) t( B# W% P; M; j" C$ m8 s' w$ c! ^" @; |6 l
    Random Forest的缺点: **
    1 |* e: N; j; |3 X+ w**◆ 当随机森林中的决策树个数很多时,训练时需要的空间和时间会比较大6 ~4 z" N+ V4 a0 m' p2 _+ m. P

    : F: s0 ?' M/ l五、极限梯度提升(eXtreme Gradient Boosting, XGBoost)
    : b% C2 K/ }2 ?0 K+ R6 J其实会想写这篇文章,是因为在使用Kaggle资料做练习时,发现网站上有需多人使用XGBClassifier做分类预测,因此想进一步了解这个模型。9 G# U* ]. Z7 N: v! I1 X
    4 e7 R8 c, p( S/ S; e1 I
    XGBoost的两个主要概念:  `& X. {, h- ~1 Z& d$ |% u% D3 J

    ' J( W& D; g  O8 O8 e2 z# l1. 回归树(Classification and Regression Tree, CART)
    9 c* W, ^+ y3 {回归树拥有和决策树一样的分支方式,并在各个叶端(Leaf)有一个预测分数(Prediction Score),且回归树是可以做集成的,也就是把资料丢到所有树中,把得到的预测分数加总。' Q0 C: @' P  n% o, s* S

      a$ J% Z8 g. g) |# ~2. 梯度提升
    2 W5 {& H9 W5 y! Z先以常数作为预测,在之后每次预测时新加入一个学习参数,要找出最佳参数,是在每次迭代中,使用贪婪演算法计算Gain,并找出最佳分支做新增,并对负Gain的分支做删减(详细请参考文章1说明)。换句话说,就是「希望后面生成的树,能够修正前面一棵树犯错的地方」。
    . m0 h/ _& h* v1 j, [' s, ?# d( k! b; Z
    Random Forest 和XGBoost 差异如下图例:
    4 O3 F0 L: R7 T' |0 v! BRandom Forest是由多个决策树所组成,但最终分类结果并未经过加权平均;而XGBoost是由连续的决策树所建构,从错误的分类中学习,并在后续的决策树中增加更高的权重。
    4 a% Q, M" ]7 E7 P- }( b9 d! N" K  Y+ d7 x# u" W& f
    Random Forest and XGBoost Difference (Reference: 參考文章3)
    * [+ f. C# G; G# V8 T/ i: d6 o  O. w7 {+ {8 X
    XGBoost的优点:
    ; \1 v$ I" Z$ s! P% t- q# L◆ 在损失函数中加入正则项,控制模型的复杂度,防止过拟合现象
    " j8 O2 P3 G9 a1 G6 z* {& E◆ 在每次迭代后,会将叶子节点的权重乘上该系数,来削弱每棵树的影响
    6 f& b4 n# S- s! Y! {# |$ W" O/ }! Y3 t4 u4 W, _, O  _; o9 a
    XGBoost的缺点: **
    " D& v: V) [2 J8 G6 V1 b$ Y**◆ 空间复杂度过高,需要储存特征值和特征对应样本的梯度统计值& b& s' g/ h, k+ T. X
    ————————————————
      w) c+ Q+ _8 d2 Q8 ?版权声明:本文为CSDN博主「wuxiaopengnihao1」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
      K5 b! M% y% d8 R6 i0 F% k! J. K原文链接:https://blog.csdn.net/wuxiaopengnihao1/article/details/126686410
    ' y3 A' b' {# m4 ~% ^3 q6 C  j) @% N. E1 t9 \
    - W- g2 X/ V9 I- q! }) c4 n% O
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-8-15 02:21 , Processed in 0.370650 second(s), 50 queries .

    回顶部