QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2733|回复: 0
打印 上一主题 下一主题

[其他资源] Python机器学习-多元分类的5种模型

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-5 16:26 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    1 A1 s0 K3 p# s0 X; m
    Python机器学习-多元分类的5种模型& l* }2 \, O. b' C/ [( e
    ' w! m& R, ?; x$ ]7 @" C, N
    最近上了些机器学习的课程,于是想透过Kaggle资料集来练习整个资料科学专案的流程,在模型训练阶段,虽然听过许多分类模型,但不是很了解其各别的优缺点与适合的使用时机,所以想来整理一篇文章,统整上课学习与网路资料,作为后续专案的优化方向!
    3 a) b0 Q6 D& g. \( q6 W0 \1 J$ z( ]4 V
    首先,机器学习主要分为「监督式学习」与「非监督式学习」,两者的差异在于资料是否有「标签」。" k+ j: ^3 o: W5 c8 h4 s5 K7 i

    2 T) o6 D8 @1 w监督式学习(Supervised Learning):给予「有标签」的资料,举例来说:给机器一堆苹果和橘子的照片,并说明哪些是苹果、哪些是橘子,再拿一张新的照片询问机器这是苹果还是橘子,而监督式学习又可分为回归(Regression)和分类(Classification)。; C! H5 W. T, P. F* F

    0 }! b1 W8 @( e非监督式学习(Unsupervised Learning):给予「无标签」的资料,让机器找出潜在的规则,举例来说:给予机器一堆苹果和橘子的照片,但没有告诉机器这些照片各别是哪种水果,让机器自行找到资料间的相似性,而非监督式学习又可分为分群(Clustering)和降维(Dimension Reduction)。
    " H. t9 D( c" G- r4 `7 A. q% _2 w/ D* J- @
    8 S' r8 _& T& X+ L- }; G' C这篇文章会以监督式学习中的分类模型为主。+ H! H4 M, e3 u

    : |4 t, F$ ^1 r  A" d4 W+ R一、逻辑回归(Logistic Regression)
    . u  H: ~; w& o. v2 o8 e# e& Z2 i逻辑回归是个二元分类(Binary Classification)的模型,并有其对应的机率值,举例:明天会下雨的机率有90%。
    / s& ^, l( G8 Z5 n+ a2 `+ L' v
    基本概念是利用线性回归线(Linear Regression Line),将资料分为A/B两类,再透过Sigmoid Function (or Logistic Function) 输出A类别的机率值(0~1),若机率>0.5则判断为A类别,因为是二元分类,所以当机率<0.5则被归类为B类别。
    % s5 y% i) B8 x7 \5 A* S2 N
    1 r' H4 T: ?7 C3 s若需处理多元分类问题,有两种方法:5 m2 s5 K# V2 e) d2 t: i1 Y; c
    1. One versus Rest (or One versus All):将每个分类与其他剩余的资料做比较,若有N个类别,就需要N个二元分类器。以下方图例来说明,若有类别1~3,每次各使用一个类别与剩余的两个类别作二元分类后,会得到三个分类器,预测时把资料放到三个分类器中,看哪个分类器的分数较高,就判断为该类别。3 X# Z! m6 Y# W6 _5 ]. K8 E% F. h

    + q5 u" y  e8 n% \: z% d4 lOne versus Rest Example (Source from Internet)
    % ]4 o  A# k1 O1 K6 Y. r% V; l+ O- A  v+ ]
    2. One versus One:每次选择两个类别做分类,若有N个类别,就会有N*(N-1)/2个分类器,将每次分类的结果做投票,最后判断为票数最高的那个类别。举下方图例来说,有三个类别,会有三组分类器,最后新资料会判断为票数较高的类别1。+ e" g# @/ e* L+ C

    $ o/ a8 L2 i5 ZOne versus One Example (Source from Internet)
    & g  @( n0 X, v; e3 V+ d; [) n4 \8 V+ E* m! l4 e
    Logistic Regression的优点:4 K0 y% ?4 ?; I( s+ y6 i4 q
    ◆ 资料线性可分(包含在高维度空间找到linear plane)
    ) |. V) }' P4 ^5 j5 f◆ 除了分类,也可以得到A/B两类的机率
    7 @+ E4 H! B5 V5 L7 C◆ 执行速度较快
    0 ^' r9 s, O  b& q, d+ J
    . J3 a4 z# H, l6 P3 i- b" ?$ E+ HLogistic Regression的缺点:( w* l* x: j, W: |
    ◆ 线性回归线的切法可能不够漂亮
    ' Y; X! m' N! v# J  q# ?◆ 不能很好地处理大量、多类特征8 @! C, W5 H& H

    - C0 U  I% r5 m, m$ O二、 支持向量机( 支持向量机,SVM)& ]+ u  T% A; j4 K# T" h. G7 _1 B
    支持向量机(Support Vector Machine)是在寻找一个超平面(Hyper-plane)来做分类,并使两个类别之间的边界距离最大化(会忽略异常点Outlier)。1 c: \" O; i- h! Y; I
    1 t* @4 ?8 v1 p% J7 F5 `+ r8 O1 _6 |3 {
    SVM也可使用于非线性分类(如下图B),透过Kernels functions将低维空间转换为高维空间,让资料可以在高维空间被线性分类。想像红色球的重量比蓝色球还重,在平面上一拍,让球往上弹,重量重的红色球会较快落下,在立体空间就可以找出个平面来切分红色和蓝色球。1 D1 {5 z& `1 {. o+ s
    - b" L. c7 j6 D/ X
    Support Vector Machine Example (Source from Internet), Z5 o/ r6 ~( B" T8 ~' Y
    $ r8 L9 X) S) }
    SVM的优点:
    * n- r' y2 \9 k; g( k% }5 E: s◆ 切出来的线或平面很漂亮,拥有最大边界距离(margin)
    2 m& u5 O3 w3 ^- h' D◆ 在高维空间可以使用(即使维度数大于样本数也有效)
    , J$ ^: x& C8 [, u0 i& U8 n◆ 在资料量较小、非线性、高维度与局部最小点等情况下有相对的优势- X7 W& X, L! X* V4 S) m. ~7 \- f
    . B5 z* `0 Z( t: w
    SVM的缺点:$ F- d* x7 c7 [- l' r
    ◆ 当资料太多时,所需的训练时间太长,而使效果不佳1 y- h* k1 g7 C' n3 l- b4 B
    ◆ 当资料集有太多noise时(如目标类别有重叠),预测的效果也会不好. M+ p+ v- r" x; N2 s0 Q
    ◆ SVM不会直接提供机率的估计值; z+ I! ~& `9 H  _+ g3 X

    6 r4 x6 W, U" [1 c三、决策树(Decision Tree)# k+ n. d: ?4 x. k/ j$ Z
    透过模型预测可以得知某个方程式来做分类,但方程式可能很难懂或很难解释,这时需要决策树(Decision Tree),它的准确性可能没有很精准,但「解释性」高,所以决策树是一种条件式的分类器,以树状结构来处理分类问题。
    0 W$ z5 T. x( l8 S& X# M+ ?( q0 Q
    建构决策树的方式,是将整个资料集依据某个特征分为数个子资料集,再从子资料集依据某个特征,分为更小的资料集,直到子资料集都是同一个类别的资料,而该如何分类则是透过资讯熵(Entropy)和资讯增益(Information Gain)来决定。
    0 }" u$ [" Z* w7 a* T' b; l( o4 X. m) V' E: x' g) ?5 t9 v' @7 V! W
    1. 资讯熵(Entropy):用来衡量资料的不纯度,若资料为同一类Entropy=0,若资料「等分」成不同类别Entropy=1。3 x" N3 T. i6 E7 a1 z$ [2 S/ L6 ?8 b

    8 _0 \) f2 |' @& ~  o0 v2. 资讯增益(Information Gain):用来衡量某个特征对于资料分类的能力,而建构决策树就是要找到具有最高资讯增益的分类法(得到纯度最高的分支)。简单来说,原本的资料集(High Entropy=E1),经过分类,得到多个资料集(Low Entropy=E2),其中的E1-E2=Information Gain。' o. i% Y$ `8 S6 r8 r

    + E" J; Y3 u, g( j( KDecision Tree的优点:+ Q/ [0 R$ {6 I* R- m3 X
    ◆ 决策树容易理解和解释6 R9 Z- q2 n- A/ i+ b
    ◆ 资料分类不需要太多的计算
    ! g: I6 j4 r/ F5 \. g/ J+ {◆ 可以处理连续值和离散值
    ; n. W: j. t7 q5 u+ d; C◆ 资料准备相对比较容易
    ! C4 `( |9 Q/ E3 D( e' N- {(不需要做特征标准化、可以处理合理的缺失值、不受异常值的影响)
    4 [7 s: ]3 W+ g$ X, |◆ 因为解释性高,能用在决策分析中,找到一个最可能达到目标的策略
    $ P. p+ F. ]/ m9 w* P) c1 H* D; D  [' ?- p, p3 U$ n# l- R  |
    Decision Tree的缺点: **  H, Q3 \( x2 [# w
    **◆ 容易过度拟合(Over-fitting): _! [/ F+ U& O, |0 {
    ◆ 若类别太多,但资料量太少,效果比较差  E5 r$ o/ `" t3 K# n

    1 Q! J! _% c+ f1 I5 f* Q6 w* ~9 w- q四、随机森林(Random Forest)3 l9 ?& G& D. S1 _, Y
    随机森林,是取部分特征与部分资料产生决策树,每重复此步骤,会再产生一颗决策树,最后再进行多数决投票产生最终结果。
    + K/ L7 M6 |0 t. O6 ~
      C  \8 {" N- v) @" y6 l随机森林可以降低决策树有过拟合的问题,因为最终结果是对所有的决策树结果进行投票,进而消除了单棵决策树的偏差。1 u1 R1 L7 k2 Z( z; _4 y0 n5 f; _

    5 m( b# B" O' P% o8 ^- m% J, Q* URandom Forest Example (Source from Internet)
    ) a3 L, G' m; ], G( \$ e/ \: i) S( B' a
    Random Forest的优点:# K# |3 T/ S) V  n. O0 U) P
    ◆ 随机森林的决策树够多,分类器就不会过拟合
    7 V) y* `9 g& }5 {◆ 每棵树会用到的资料和特征是随机决定的
    % f$ G  [) [0 e" A! T◆ 训练或预测时每棵树都能平行化的运行
    5 l1 J3 h( T4 Q
    0 o4 \# P+ v: P$ |$ V. BRandom Forest的缺点: **" Q" n% e/ A- Q* S. P* }5 r( h
    **◆ 当随机森林中的决策树个数很多时,训练时需要的空间和时间会比较大
    ( X9 p9 p# q3 }" M" G$ T2 b) z9 B4 M
    五、极限梯度提升(eXtreme Gradient Boosting, XGBoost)* [$ s3 M7 s  Z9 [/ S7 ]
    其实会想写这篇文章,是因为在使用Kaggle资料做练习时,发现网站上有需多人使用XGBClassifier做分类预测,因此想进一步了解这个模型。' h% v9 t9 C9 w+ Y5 Q3 N- Q
    4 R# T6 c0 t: ]  q: ?2 x' k( U
    XGBoost的两个主要概念:. i+ }- {7 N5 {8 {; C
    - B$ v! l3 ~, b( y. A
    1. 回归树(Classification and Regression Tree, CART)( H( x2 v9 ^5 b& G6 ]
    回归树拥有和决策树一样的分支方式,并在各个叶端(Leaf)有一个预测分数(Prediction Score),且回归树是可以做集成的,也就是把资料丢到所有树中,把得到的预测分数加总。
    ) F. \' ?  O4 M* E0 h) A& c9 {% O9 @! e
    2. 梯度提升5 r0 \, s: l# l. f9 s8 o
    先以常数作为预测,在之后每次预测时新加入一个学习参数,要找出最佳参数,是在每次迭代中,使用贪婪演算法计算Gain,并找出最佳分支做新增,并对负Gain的分支做删减(详细请参考文章1说明)。换句话说,就是「希望后面生成的树,能够修正前面一棵树犯错的地方」。
      Z# h5 m9 ?* r! u/ }3 R( h9 [2 x. Q, x
    Random Forest 和XGBoost 差异如下图例:
      P! i2 h0 F4 MRandom Forest是由多个决策树所组成,但最终分类结果并未经过加权平均;而XGBoost是由连续的决策树所建构,从错误的分类中学习,并在后续的决策树中增加更高的权重。' ?  w8 C8 K: `' ~' z
    8 _% E9 y3 ]2 j* A2 G( z3 `' Z% f
    Random Forest and XGBoost Difference (Reference: 參考文章3)# r8 [6 I/ [) J* e6 c) a% N

    5 Y& k0 e" a# x+ D" mXGBoost的优点:, X5 j! u! F* l) |, p
    ◆ 在损失函数中加入正则项,控制模型的复杂度,防止过拟合现象1 ]2 K, |* n5 [/ p, s
    ◆ 在每次迭代后,会将叶子节点的权重乘上该系数,来削弱每棵树的影响4 W6 d. D: Z3 P9 P& U2 \) o% r
    & ]: @8 D; r3 o7 K9 w
    XGBoost的缺点: **
    / T0 K2 ^9 }" T/ N% h8 ]4 O**◆ 空间复杂度过高,需要储存特征值和特征对应样本的梯度统计值
    5 |/ ^+ a; x3 g————————————————  a' H; B! f3 H+ ~/ ~" ~2 z
    版权声明:本文为CSDN博主「wuxiaopengnihao1」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。# I  C: q0 @; A( E) w
    原文链接:https://blog.csdn.net/wuxiaopengnihao1/article/details/1266864109 ~0 @0 K: x0 o( `7 ^
    ! b& r4 H) Z; }1 z8 n: C

    ; s( n- u' m  Z/ F
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-20 22:15 , Processed in 0.518728 second(s), 51 queries .

    回顶部