QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2148|回复: 0
打印 上一主题 下一主题

[其他资源] Python机器学习-多元分类的5种模型

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-5 16:26 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    1 L- N9 V" q" ^7 P- C9 f
    Python机器学习-多元分类的5种模型
    ' ~9 e; B1 n; {5 j8 R9 X- Y5 i' C
    8 V# V; D' @; L& H2 S/ U0 t最近上了些机器学习的课程,于是想透过Kaggle资料集来练习整个资料科学专案的流程,在模型训练阶段,虽然听过许多分类模型,但不是很了解其各别的优缺点与适合的使用时机,所以想来整理一篇文章,统整上课学习与网路资料,作为后续专案的优化方向!
    / C% `4 I; G. u0 ^1 \: ?5 j9 I3 T& I
    首先,机器学习主要分为「监督式学习」与「非监督式学习」,两者的差异在于资料是否有「标签」。
    0 O. {) a/ A  \: Z- t+ u8 c& S3 X% G+ D3 a8 P
    监督式学习(Supervised Learning):给予「有标签」的资料,举例来说:给机器一堆苹果和橘子的照片,并说明哪些是苹果、哪些是橘子,再拿一张新的照片询问机器这是苹果还是橘子,而监督式学习又可分为回归(Regression)和分类(Classification)。9 D- v$ m( t) J$ a

      C8 U: x* S( \: A( d. J- D非监督式学习(Unsupervised Learning):给予「无标签」的资料,让机器找出潜在的规则,举例来说:给予机器一堆苹果和橘子的照片,但没有告诉机器这些照片各别是哪种水果,让机器自行找到资料间的相似性,而非监督式学习又可分为分群(Clustering)和降维(Dimension Reduction)。
    6 B, n! {+ I$ m1 u
    ) t. m2 l4 H1 t. h2 \这篇文章会以监督式学习中的分类模型为主。' a/ w8 f: n9 e
    ; I$ a# D7 w8 _  C' Q& Y0 z! _; N
    一、逻辑回归(Logistic Regression)
    5 A0 y# }+ S; x# |逻辑回归是个二元分类(Binary Classification)的模型,并有其对应的机率值,举例:明天会下雨的机率有90%。- x9 t2 k9 D1 c4 d7 |/ {
    8 ~6 c6 O$ z6 I- S) @3 \! Q
    基本概念是利用线性回归线(Linear Regression Line),将资料分为A/B两类,再透过Sigmoid Function (or Logistic Function) 输出A类别的机率值(0~1),若机率>0.5则判断为A类别,因为是二元分类,所以当机率<0.5则被归类为B类别。
    9 N7 [: n) e5 j( U; F3 L/ y7 f$ R
    5 |+ E* R4 h% O5 q. o$ P- @2 g若需处理多元分类问题,有两种方法:
    8 g: q9 P" d" u, [: s/ ~7 s. ^1. One versus Rest (or One versus All):将每个分类与其他剩余的资料做比较,若有N个类别,就需要N个二元分类器。以下方图例来说明,若有类别1~3,每次各使用一个类别与剩余的两个类别作二元分类后,会得到三个分类器,预测时把资料放到三个分类器中,看哪个分类器的分数较高,就判断为该类别。3 {# b/ H! j  J3 p4 i

    9 }! ^' a9 a% N, N6 L; L8 L. iOne versus Rest Example (Source from Internet)
    1 ~6 U2 `3 z$ r6 R* D# [+ \3 C1 h. q& w/ o* U- [% k8 s$ u/ Q- }
    2. One versus One:每次选择两个类别做分类,若有N个类别,就会有N*(N-1)/2个分类器,将每次分类的结果做投票,最后判断为票数最高的那个类别。举下方图例来说,有三个类别,会有三组分类器,最后新资料会判断为票数较高的类别1。
    3 V/ |. S1 Q, M2 J, @+ U! J
    " z- t8 X+ m: s  K6 s1 _One versus One Example (Source from Internet)/ h! T) ?: R6 [, l" k% z% `/ c8 c: t

    . v2 {/ f# e6 r" f/ uLogistic Regression的优点:6 d0 M* z8 D" f% o, l( P
    ◆ 资料线性可分(包含在高维度空间找到linear plane)
    $ M! p9 s! v5 I' e" F◆ 除了分类,也可以得到A/B两类的机率
    . K5 b( o! g- ?% N6 x◆ 执行速度较快
    2 D7 C) j& t" j! b" {# O. L2 z; I& }* b. @' x
    Logistic Regression的缺点:
    2 n, }3 d( b6 ]' S6 E( }9 I◆ 线性回归线的切法可能不够漂亮1 v" [! g& q, ^! ~+ l  a/ C# ~) \% F
    ◆ 不能很好地处理大量、多类特征* S1 m7 A' M  x( E% d

    ) A$ i0 z+ h( t6 q5 b$ L1 }4 N! o二、 支持向量机( 支持向量机,SVM)0 l! u: R/ @! X6 ]- e# v5 S5 v
    支持向量机(Support Vector Machine)是在寻找一个超平面(Hyper-plane)来做分类,并使两个类别之间的边界距离最大化(会忽略异常点Outlier)。
    ! _2 U; u. T2 t. M( o3 h
    ) r; |9 p3 J: PSVM也可使用于非线性分类(如下图B),透过Kernels functions将低维空间转换为高维空间,让资料可以在高维空间被线性分类。想像红色球的重量比蓝色球还重,在平面上一拍,让球往上弹,重量重的红色球会较快落下,在立体空间就可以找出个平面来切分红色和蓝色球。
    3 t# D5 ]' W) E
    9 D; [% |6 o0 ~, q: \4 [Support Vector Machine Example (Source from Internet)
    " w& }" b6 S( y/ \, r
    & ^6 \. ?7 j, N) sSVM的优点:
      x6 L+ T1 P0 t( ?( h; y◆ 切出来的线或平面很漂亮,拥有最大边界距离(margin)
      d2 w" {: P7 T! t2 {◆ 在高维空间可以使用(即使维度数大于样本数也有效)
    9 B1 P; |: U6 j5 U8 I. L◆ 在资料量较小、非线性、高维度与局部最小点等情况下有相对的优势/ b2 M8 c. @- p3 s
    2 i$ p' b5 x$ c) S
    SVM的缺点:, A5 \6 z- F/ Y
    ◆ 当资料太多时,所需的训练时间太长,而使效果不佳
    # d4 h, q9 S5 C. u. m6 g. l◆ 当资料集有太多noise时(如目标类别有重叠),预测的效果也会不好/ C/ W- |2 u0 F: F. m5 }
    ◆ SVM不会直接提供机率的估计值
    ; V9 @4 u4 {, K$ M9 R8 K, k1 V  }4 `7 o% A+ O
    三、决策树(Decision Tree): Y1 ~- @9 }, f7 @; m6 O; K
    透过模型预测可以得知某个方程式来做分类,但方程式可能很难懂或很难解释,这时需要决策树(Decision Tree),它的准确性可能没有很精准,但「解释性」高,所以决策树是一种条件式的分类器,以树状结构来处理分类问题。
    * G  h2 c+ V# f
    % C0 Z! z! ?8 E建构决策树的方式,是将整个资料集依据某个特征分为数个子资料集,再从子资料集依据某个特征,分为更小的资料集,直到子资料集都是同一个类别的资料,而该如何分类则是透过资讯熵(Entropy)和资讯增益(Information Gain)来决定。! T9 ^6 b0 l# J' T, x/ X7 b9 l. [0 N

      g0 L! a' s& p5 o2 U1. 资讯熵(Entropy):用来衡量资料的不纯度,若资料为同一类Entropy=0,若资料「等分」成不同类别Entropy=1。
    # a$ n" ^8 q( \0 a2 c' k+ n2 e8 p, Y& L8 x$ H8 \& z$ u" q% }
    2. 资讯增益(Information Gain):用来衡量某个特征对于资料分类的能力,而建构决策树就是要找到具有最高资讯增益的分类法(得到纯度最高的分支)。简单来说,原本的资料集(High Entropy=E1),经过分类,得到多个资料集(Low Entropy=E2),其中的E1-E2=Information Gain。- b- x) {8 Q: T/ @$ W1 v6 e

    # f( ~5 l1 [7 W4 }) V' _0 f; ?* wDecision Tree的优点:7 u* E1 W+ g* C( R
    ◆ 决策树容易理解和解释
    ! F8 N& _7 h9 l" y  q4 N◆ 资料分类不需要太多的计算
    # m' |. f* C# y" n& J◆ 可以处理连续值和离散值
      |5 ~( H2 f8 d5 G  ]  X+ S◆ 资料准备相对比较容易' b4 a1 O5 |. E+ v4 F) I6 C' M$ j
    (不需要做特征标准化、可以处理合理的缺失值、不受异常值的影响); E2 t5 U) g0 l& P7 b$ R% A4 `2 S
    ◆ 因为解释性高,能用在决策分析中,找到一个最可能达到目标的策略
    3 X. r; T" \# t+ e1 A. ?9 V& S) g8 Q) B. Q9 k/ R$ O
    Decision Tree的缺点: **" V) u) s2 Y' ]2 k+ O# `
    **◆ 容易过度拟合(Over-fitting)
    7 t* @) [) y8 _5 M/ _/ e' Q& |◆ 若类别太多,但资料量太少,效果比较差
    3 ~# F# H1 m8 f" Z- y( x. ]2 ?' L) h0 ?% k
    四、随机森林(Random Forest)& t" l! S' x  y* M
    随机森林,是取部分特征与部分资料产生决策树,每重复此步骤,会再产生一颗决策树,最后再进行多数决投票产生最终结果。# V+ w4 H6 X: u3 U& r/ s" |/ @9 e

    . n! }: c; z3 `0 `随机森林可以降低决策树有过拟合的问题,因为最终结果是对所有的决策树结果进行投票,进而消除了单棵决策树的偏差。, }- R4 a9 h$ S4 p+ n6 H7 w- q
    7 C- K( }) v: @4 U" n- B1 [
    Random Forest Example (Source from Internet)# X& A8 Y2 s1 M" I( k
    ) L. l* e: C. w4 W: r4 V
    Random Forest的优点:
    - M+ M6 K4 r$ O( M0 H. b$ g◆ 随机森林的决策树够多,分类器就不会过拟合$ U1 M4 g* U5 _; K8 p. v0 r  p
    ◆ 每棵树会用到的资料和特征是随机决定的( W1 h& n% c; [6 X) Y* ~
    ◆ 训练或预测时每棵树都能平行化的运行, X0 v3 _+ X3 f/ N

    6 J' u- T/ }$ n5 s+ `2 w9 bRandom Forest的缺点: **# X1 h! w( }- Q* c/ b; M: V% x* s
    **◆ 当随机森林中的决策树个数很多时,训练时需要的空间和时间会比较大' C1 I0 V$ z: S0 j0 Z0 ?1 o. k

    6 A4 D. \% s; r( X: j5 _1 _. q五、极限梯度提升(eXtreme Gradient Boosting, XGBoost)
    * J0 e" @( x: h1 `3 c# Y其实会想写这篇文章,是因为在使用Kaggle资料做练习时,发现网站上有需多人使用XGBClassifier做分类预测,因此想进一步了解这个模型。2 F4 o1 t1 {* Y+ H; }

    % `! E+ G5 D- E& b: hXGBoost的两个主要概念:% F1 \: K+ Q( Q" l  k

    1 m) s7 A) R3 h5 V. ^5 B6 u& M1. 回归树(Classification and Regression Tree, CART)7 c: O/ x& k/ h$ @
    回归树拥有和决策树一样的分支方式,并在各个叶端(Leaf)有一个预测分数(Prediction Score),且回归树是可以做集成的,也就是把资料丢到所有树中,把得到的预测分数加总。$ r! F/ x0 k: d; w' j5 G

    : \+ E) [" C" t  M1 z2. 梯度提升( D6 t) Z8 ~( q! K4 |1 U
    先以常数作为预测,在之后每次预测时新加入一个学习参数,要找出最佳参数,是在每次迭代中,使用贪婪演算法计算Gain,并找出最佳分支做新增,并对负Gain的分支做删减(详细请参考文章1说明)。换句话说,就是「希望后面生成的树,能够修正前面一棵树犯错的地方」。! n- X8 b# W" i

    ' V+ J+ v; `3 _3 y; t5 |Random Forest 和XGBoost 差异如下图例:
    9 t) _2 P. ?5 z) K9 YRandom Forest是由多个决策树所组成,但最终分类结果并未经过加权平均;而XGBoost是由连续的决策树所建构,从错误的分类中学习,并在后续的决策树中增加更高的权重。
    # i/ X6 [! a; N  r7 z
    . z/ w- h  k& C5 d, W; a8 `+ k4 jRandom Forest and XGBoost Difference (Reference: 參考文章3)" ~! q, p' P! g# y

    3 L4 F0 v. f( nXGBoost的优点:; d1 @2 r, X5 i: E/ N
    ◆ 在损失函数中加入正则项,控制模型的复杂度,防止过拟合现象
    . g% V5 s2 K1 P# |6 d◆ 在每次迭代后,会将叶子节点的权重乘上该系数,来削弱每棵树的影响- y9 _* N) z! z% V

    $ b2 ~9 r2 G) @5 VXGBoost的缺点: **" _& a) y. F! b( Z; f$ p9 U# h* L: z
    **◆ 空间复杂度过高,需要储存特征值和特征对应样本的梯度统计值
    3 g! I8 I- p3 B! N' J+ d3 @————————————————
    . `) E) h' L5 m; `  M- C; ]" x版权声明:本文为CSDN博主「wuxiaopengnihao1」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。! Z9 t" W* q% S* }  p5 b
    原文链接:https://blog.csdn.net/wuxiaopengnihao1/article/details/1266864101 E" Q7 r$ Z+ _6 X: f% J
    5 v& P5 Q7 y6 [' |3 v

    8 k. u- N! P6 d5 d
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-8-4 01:45 , Processed in 0.382312 second(s), 50 queries .

    回顶部