QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1788|回复: 0
打印 上一主题 下一主题

[其他资源] Python机器学习-多元分类的5种模型

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-5 16:26 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    ( X7 O0 h# E' R/ O5 G5 gPython机器学习-多元分类的5种模型
    ) {4 H& Y7 B" |/ @! h, }: L! a  D& Q" T6 {- M
    最近上了些机器学习的课程,于是想透过Kaggle资料集来练习整个资料科学专案的流程,在模型训练阶段,虽然听过许多分类模型,但不是很了解其各别的优缺点与适合的使用时机,所以想来整理一篇文章,统整上课学习与网路资料,作为后续专案的优化方向!- |+ {% c( V) t# H

    ' a# Z; X  J+ O9 Z6 A, l$ P2 j首先,机器学习主要分为「监督式学习」与「非监督式学习」,两者的差异在于资料是否有「标签」。  C3 K' |' L! P' {2 d2 e: r! t

    - j& e" n6 y* W4 S- G3 X监督式学习(Supervised Learning):给予「有标签」的资料,举例来说:给机器一堆苹果和橘子的照片,并说明哪些是苹果、哪些是橘子,再拿一张新的照片询问机器这是苹果还是橘子,而监督式学习又可分为回归(Regression)和分类(Classification)。4 S9 W% _& n6 v' k) A' `9 w4 V
    - g3 N. M: y9 k
    非监督式学习(Unsupervised Learning):给予「无标签」的资料,让机器找出潜在的规则,举例来说:给予机器一堆苹果和橘子的照片,但没有告诉机器这些照片各别是哪种水果,让机器自行找到资料间的相似性,而非监督式学习又可分为分群(Clustering)和降维(Dimension Reduction)。
    ( }) J7 f8 d3 L6 w
    6 a* `# f! j5 x' ]8 A, t这篇文章会以监督式学习中的分类模型为主。5 v* N, o; y; e; q

    7 t) t; _: ^6 P( [* {9 F一、逻辑回归(Logistic Regression)1 k  c, P4 i) m8 U
    逻辑回归是个二元分类(Binary Classification)的模型,并有其对应的机率值,举例:明天会下雨的机率有90%。2 y- B5 y% q  s! s% f( p; d

    # t' T" d& N1 H; K; j' Z基本概念是利用线性回归线(Linear Regression Line),将资料分为A/B两类,再透过Sigmoid Function (or Logistic Function) 输出A类别的机率值(0~1),若机率>0.5则判断为A类别,因为是二元分类,所以当机率<0.5则被归类为B类别。
    9 D8 m' |8 g$ p" D, z! B. q+ g& O8 q- ?, V' F5 g9 t+ B7 E5 A7 F/ t# X; _
    若需处理多元分类问题,有两种方法:
    / s# O7 `5 E+ Z5 _" o1 \) v& o1. One versus Rest (or One versus All):将每个分类与其他剩余的资料做比较,若有N个类别,就需要N个二元分类器。以下方图例来说明,若有类别1~3,每次各使用一个类别与剩余的两个类别作二元分类后,会得到三个分类器,预测时把资料放到三个分类器中,看哪个分类器的分数较高,就判断为该类别。4 a! E; P' X, `% y9 ]
    , [( i! O+ i4 i" [+ {
    One versus Rest Example (Source from Internet)7 |1 w( t5 [0 |+ ]# V/ @# C* \9 K
    ' a' p, [0 N& a, D; ]4 j0 {* T. u
    2. One versus One:每次选择两个类别做分类,若有N个类别,就会有N*(N-1)/2个分类器,将每次分类的结果做投票,最后判断为票数最高的那个类别。举下方图例来说,有三个类别,会有三组分类器,最后新资料会判断为票数较高的类别1。5 r: L2 T  t0 C: j' E0 T, j8 A: Y

    : A- ?, D+ Y8 b# J" y& g4 COne versus One Example (Source from Internet)6 k4 G% Q) ]6 F& z

    ) a2 G  Q; m% n+ _# K) ~2 yLogistic Regression的优点:
      v( N3 ?  W# ^' I9 L2 e◆ 资料线性可分(包含在高维度空间找到linear plane)
    2 D& t# r' d8 [◆ 除了分类,也可以得到A/B两类的机率/ U. Z2 v  W! G/ p9 L% N% u2 |+ g
    ◆ 执行速度较快
    0 y* W; [) o9 c, t2 ]/ u( }- Z4 V! U  n2 ~
    Logistic Regression的缺点:
    ( I; d/ n8 H4 J: L( J2 t◆ 线性回归线的切法可能不够漂亮
    2 `; X) F% n# F6 c% s6 I+ s$ \, r◆ 不能很好地处理大量、多类特征
    * M. j1 N" s' `$ y7 Q. N1 H6 ]5 ]. P/ g- Z' H
    二、 支持向量机( 支持向量机,SVM)
    3 l$ _8 r. I, C5 s支持向量机(Support Vector Machine)是在寻找一个超平面(Hyper-plane)来做分类,并使两个类别之间的边界距离最大化(会忽略异常点Outlier)。
    ( M: a7 Y) j' [2 e# T
    , h9 q; P' g5 V$ DSVM也可使用于非线性分类(如下图B),透过Kernels functions将低维空间转换为高维空间,让资料可以在高维空间被线性分类。想像红色球的重量比蓝色球还重,在平面上一拍,让球往上弹,重量重的红色球会较快落下,在立体空间就可以找出个平面来切分红色和蓝色球。
    ) K0 K3 g3 Z6 c
    + N+ M( N) P2 B- dSupport Vector Machine Example (Source from Internet)9 Q% S1 _* d7 K7 K
    6 S" ]2 V4 v' V& }$ f4 G2 f
    SVM的优点:( o0 |" A, C* A9 K2 w
    ◆ 切出来的线或平面很漂亮,拥有最大边界距离(margin)
    2 g  `) y# x& D) P5 O5 V1 Z◆ 在高维空间可以使用(即使维度数大于样本数也有效)
    5 e, @+ m+ U) D: ]+ i9 q◆ 在资料量较小、非线性、高维度与局部最小点等情况下有相对的优势
    ( P8 O4 |6 }5 A- j
    5 r: J' b$ b0 eSVM的缺点:" O* N& q  d4 \; R6 ?4 z) a8 d
    ◆ 当资料太多时,所需的训练时间太长,而使效果不佳
    9 d* U6 J& ~3 Q◆ 当资料集有太多noise时(如目标类别有重叠),预测的效果也会不好3 z* l5 k6 L3 _) }
    ◆ SVM不会直接提供机率的估计值4 ?8 e' j1 N( M# m/ O; ^9 a' B

    : P  B# l1 X" \/ R8 r$ r, t% h三、决策树(Decision Tree)9 I% }, A4 ~8 q! j4 [! ]
    透过模型预测可以得知某个方程式来做分类,但方程式可能很难懂或很难解释,这时需要决策树(Decision Tree),它的准确性可能没有很精准,但「解释性」高,所以决策树是一种条件式的分类器,以树状结构来处理分类问题。
    & T! B2 ~- U' ]$ [
    ' z) g& ?5 R  X; a5 A- C. l, F建构决策树的方式,是将整个资料集依据某个特征分为数个子资料集,再从子资料集依据某个特征,分为更小的资料集,直到子资料集都是同一个类别的资料,而该如何分类则是透过资讯熵(Entropy)和资讯增益(Information Gain)来决定。: s) ?; q7 B9 E, Y  a2 ~, R

    # L3 I5 ~8 b, P0 E, u1. 资讯熵(Entropy):用来衡量资料的不纯度,若资料为同一类Entropy=0,若资料「等分」成不同类别Entropy=1。
    + `: M/ U( s/ z6 u3 K0 S  @6 \
    7 N' ^; c$ i  n' a& ~# n+ o2. 资讯增益(Information Gain):用来衡量某个特征对于资料分类的能力,而建构决策树就是要找到具有最高资讯增益的分类法(得到纯度最高的分支)。简单来说,原本的资料集(High Entropy=E1),经过分类,得到多个资料集(Low Entropy=E2),其中的E1-E2=Information Gain。
    4 P! K/ z, ]# ~* ]! r# h7 f( k) T# Y
    0 }* s0 ?8 T4 ?; M) L) J2 \Decision Tree的优点:
    4 a# G+ D. i) o# a3 o! {- I◆ 决策树容易理解和解释
    . u& O* f3 F. W1 Y( k& I6 U◆ 资料分类不需要太多的计算+ k2 e: f' s: @8 F0 I) G
    ◆ 可以处理连续值和离散值3 t+ P* @3 v' i4 Y1 l# ]8 |8 E) {
    ◆ 资料准备相对比较容易
    % {8 s  f  Q2 O/ {8 @, F(不需要做特征标准化、可以处理合理的缺失值、不受异常值的影响)
    5 ^) q8 Y  C' F/ s; b# l◆ 因为解释性高,能用在决策分析中,找到一个最可能达到目标的策略
    7 G7 s* E8 E: |* g4 O! `% p) V3 d$ k& a% B4 x( ?% f3 p
    Decision Tree的缺点: **
    $ N: S3 w9 C; |# A/ S% w3 }**◆ 容易过度拟合(Over-fitting)! `' U2 \3 T& C4 `
    ◆ 若类别太多,但资料量太少,效果比较差' }9 ~: M( |' P; O
    ' p+ J& F, Q2 f
    四、随机森林(Random Forest)
    2 Y$ c7 R" s3 h" N+ v/ S  J随机森林,是取部分特征与部分资料产生决策树,每重复此步骤,会再产生一颗决策树,最后再进行多数决投票产生最终结果。
    + c0 A! r! D8 Z+ c! B$ p  v$ T6 D( r6 V
    随机森林可以降低决策树有过拟合的问题,因为最终结果是对所有的决策树结果进行投票,进而消除了单棵决策树的偏差。+ f# a+ u* N7 ?
    5 T! e0 I, O$ A. s
    Random Forest Example (Source from Internet)4 b6 `2 B# K, V# `0 V3 K

    % T) ?0 D$ A, I2 X& C! SRandom Forest的优点:
    : f) F- C1 W" Z- ^6 R, l+ f! T◆ 随机森林的决策树够多,分类器就不会过拟合! u8 N" g, p# ~8 j/ S
    ◆ 每棵树会用到的资料和特征是随机决定的8 n  x" c9 R/ d# B
    ◆ 训练或预测时每棵树都能平行化的运行
    ( u; g" u7 r5 o2 V/ }" D* b3 o9 L/ ]. r; @8 u  s- i5 E0 H
    Random Forest的缺点: **
    $ w, c% q4 X8 ]1 J. G0 x$ @, P**◆ 当随机森林中的决策树个数很多时,训练时需要的空间和时间会比较大
    0 L4 C" V' ?6 m! Y. p- z2 t; Z
    - g( y. ^: u2 T五、极限梯度提升(eXtreme Gradient Boosting, XGBoost)" e+ u4 j$ g/ l0 A& @
    其实会想写这篇文章,是因为在使用Kaggle资料做练习时,发现网站上有需多人使用XGBClassifier做分类预测,因此想进一步了解这个模型。, f* B: |) y) ]
    + O8 y) k7 [3 Z" K3 Y
    XGBoost的两个主要概念:
    3 y! z/ T# j- W7 T3 G* y6 s) ?6 G
    $ Q$ @4 V) @6 D9 X4 H1. 回归树(Classification and Regression Tree, CART)
    % h  z+ j+ I/ E; j' `回归树拥有和决策树一样的分支方式,并在各个叶端(Leaf)有一个预测分数(Prediction Score),且回归树是可以做集成的,也就是把资料丢到所有树中,把得到的预测分数加总。  X3 T8 v& k! d& R

    . r& O3 K; L" J! S1 A" i2. 梯度提升
    % Z3 Q/ f: F, t7 t先以常数作为预测,在之后每次预测时新加入一个学习参数,要找出最佳参数,是在每次迭代中,使用贪婪演算法计算Gain,并找出最佳分支做新增,并对负Gain的分支做删减(详细请参考文章1说明)。换句话说,就是「希望后面生成的树,能够修正前面一棵树犯错的地方」。4 W* \' U* n/ v( X
    9 C2 A- G' v5 w3 D
    Random Forest 和XGBoost 差异如下图例:
    4 M8 ?1 [( Y4 j5 CRandom Forest是由多个决策树所组成,但最终分类结果并未经过加权平均;而XGBoost是由连续的决策树所建构,从错误的分类中学习,并在后续的决策树中增加更高的权重。" n% z( u  a- R/ G
    9 F: Z& ^7 ^) M  C( E
    Random Forest and XGBoost Difference (Reference: 參考文章3)3 Y3 f( C+ k9 b! L0 m1 f
    ( z' j  P! e% q" e& o9 S* O8 n
    XGBoost的优点:. R# \& j) ^" C; ?$ `
    ◆ 在损失函数中加入正则项,控制模型的复杂度,防止过拟合现象/ |4 o" j" X; K" L
    ◆ 在每次迭代后,会将叶子节点的权重乘上该系数,来削弱每棵树的影响
    # r4 M$ I  [% W  g. S9 R6 ^" Z8 X
    1 [0 J$ t; R4 D7 }; V+ f5 `; PXGBoost的缺点: **
    $ P9 t5 M6 w, P**◆ 空间复杂度过高,需要储存特征值和特征对应样本的梯度统计值
    1 b, n5 A) k) R; s0 t; H————————————————
    ! }7 V" ]! a- Y4 T版权声明:本文为CSDN博主「wuxiaopengnihao1」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    % D% ]" _' K  `1 C) @' g原文链接:https://blog.csdn.net/wuxiaopengnihao1/article/details/126686410
    ! |/ y, a( R$ Z) g, U3 |8 J* I4 ~/ g- U, R, m# T

    + Y) _. k+ I6 P1 n
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-6-4 08:13 , Processed in 0.703400 second(s), 50 queries .

    回顶部