QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2726|回复: 0
打印 上一主题 下一主题

[其他资源] Python机器学习-多元分类的5种模型

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-5 16:26 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    " v8 y. h- p" ]Python机器学习-多元分类的5种模型
    2 k6 D/ Y. i- Q, f" q- R" Z7 d' @1 t6 L8 z' H/ b: O
    最近上了些机器学习的课程,于是想透过Kaggle资料集来练习整个资料科学专案的流程,在模型训练阶段,虽然听过许多分类模型,但不是很了解其各别的优缺点与适合的使用时机,所以想来整理一篇文章,统整上课学习与网路资料,作为后续专案的优化方向!
    / T  v+ }: U0 {2 X
    9 d' i$ d) f- d首先,机器学习主要分为「监督式学习」与「非监督式学习」,两者的差异在于资料是否有「标签」。
    * l) `8 @0 A- T" y
    9 w( w. u2 K% _) a7 s# \8 N* R监督式学习(Supervised Learning):给予「有标签」的资料,举例来说:给机器一堆苹果和橘子的照片,并说明哪些是苹果、哪些是橘子,再拿一张新的照片询问机器这是苹果还是橘子,而监督式学习又可分为回归(Regression)和分类(Classification)。; @& z/ u/ h; _# X/ L: D* {
    # w& M; f6 z+ P6 y% l: |0 Q
    非监督式学习(Unsupervised Learning):给予「无标签」的资料,让机器找出潜在的规则,举例来说:给予机器一堆苹果和橘子的照片,但没有告诉机器这些照片各别是哪种水果,让机器自行找到资料间的相似性,而非监督式学习又可分为分群(Clustering)和降维(Dimension Reduction)。; c2 L+ {$ F) f6 l

    # ]( O. \' m% n- g6 G* F这篇文章会以监督式学习中的分类模型为主。
    , C$ s- J' x5 k# V
      E+ ?8 j. L$ b, H一、逻辑回归(Logistic Regression)
    6 h0 E" H1 h2 C: D$ B' c* d逻辑回归是个二元分类(Binary Classification)的模型,并有其对应的机率值,举例:明天会下雨的机率有90%。
    . p3 W& S/ A& k6 {% O
    , H/ F. ?* `, _& a5 ^! p! H% X+ [& v基本概念是利用线性回归线(Linear Regression Line),将资料分为A/B两类,再透过Sigmoid Function (or Logistic Function) 输出A类别的机率值(0~1),若机率>0.5则判断为A类别,因为是二元分类,所以当机率<0.5则被归类为B类别。
      Q, {( r# l- i: g6 c3 A& ^* ^! k
    5 e/ s& d- D9 M: ~  I7 ?若需处理多元分类问题,有两种方法:( r  j5 v. L, p' _8 v2 L8 B
    1. One versus Rest (or One versus All):将每个分类与其他剩余的资料做比较,若有N个类别,就需要N个二元分类器。以下方图例来说明,若有类别1~3,每次各使用一个类别与剩余的两个类别作二元分类后,会得到三个分类器,预测时把资料放到三个分类器中,看哪个分类器的分数较高,就判断为该类别。4 d5 t- h/ G- c6 M
    + f) D: }- h( \+ L: w
    One versus Rest Example (Source from Internet)
    + \" _! U3 _! V7 m; _/ j* s7 ~* K' G% V0 v5 p1 O! l* k0 F' h- t
    2. One versus One:每次选择两个类别做分类,若有N个类别,就会有N*(N-1)/2个分类器,将每次分类的结果做投票,最后判断为票数最高的那个类别。举下方图例来说,有三个类别,会有三组分类器,最后新资料会判断为票数较高的类别1。
    / P1 u1 l: P8 q8 `( g' M: s  G& s  a
    One versus One Example (Source from Internet)
    3 g' d: D% _- z/ m+ a7 j
    7 F; ^6 W; L5 S( Y9 R! QLogistic Regression的优点:
    0 |4 P6 Z7 b1 d6 o6 T3 O" w◆ 资料线性可分(包含在高维度空间找到linear plane)! |3 N) S6 ^2 S# `& s, [
    ◆ 除了分类,也可以得到A/B两类的机率6 t) l; M$ Q+ u; A! `
    ◆ 执行速度较快
    # P* ^( U+ X* V* `, r0 J0 d1 y! I) O1 s
    Logistic Regression的缺点:
    ( c! X/ K( w: X5 e. t◆ 线性回归线的切法可能不够漂亮
    1 m# V/ [% V4 b" \2 _. ^( g◆ 不能很好地处理大量、多类特征8 G* v4 w# P. O0 k6 q
    + z6 R6 |9 e; F- x. w+ Y
    二、 支持向量机( 支持向量机,SVM)* ]+ |8 G- u  F6 j7 n1 C
    支持向量机(Support Vector Machine)是在寻找一个超平面(Hyper-plane)来做分类,并使两个类别之间的边界距离最大化(会忽略异常点Outlier)。3 T$ s8 S: b) |* a

    & m, M( o( ?- y6 y* QSVM也可使用于非线性分类(如下图B),透过Kernels functions将低维空间转换为高维空间,让资料可以在高维空间被线性分类。想像红色球的重量比蓝色球还重,在平面上一拍,让球往上弹,重量重的红色球会较快落下,在立体空间就可以找出个平面来切分红色和蓝色球。
    9 @+ j% `( C# q4 Q% i2 V: |! p7 I+ L( m- j5 \, k/ [6 b
    Support Vector Machine Example (Source from Internet)9 p2 A( y7 Y) n7 e6 ]$ t* l
    - R" B# \/ d2 }+ m7 y
    SVM的优点:, ]; f. f# v0 B5 p& [& |  T' w
    ◆ 切出来的线或平面很漂亮,拥有最大边界距离(margin)6 p2 @/ M" U6 p) V9 Q, e+ J
    ◆ 在高维空间可以使用(即使维度数大于样本数也有效)
    5 a5 N" ?* Z/ O$ F8 S◆ 在资料量较小、非线性、高维度与局部最小点等情况下有相对的优势2 z: z( D& p. Z

    ; W: _9 |9 L4 ^6 w( \" hSVM的缺点:3 a& G" @- S* l; C; Y  c
    ◆ 当资料太多时,所需的训练时间太长,而使效果不佳
    4 I0 O% M' D  ~: J3 \6 {7 S$ `◆ 当资料集有太多noise时(如目标类别有重叠),预测的效果也会不好
    . G5 o2 V! \: E$ p0 U◆ SVM不会直接提供机率的估计值; a  a; w* [6 F5 }: u; T0 C
    # A5 b' T$ Z; d- B6 O
    三、决策树(Decision Tree)
    2 H! q+ G0 P0 t6 @1 X+ i& o" P  `透过模型预测可以得知某个方程式来做分类,但方程式可能很难懂或很难解释,这时需要决策树(Decision Tree),它的准确性可能没有很精准,但「解释性」高,所以决策树是一种条件式的分类器,以树状结构来处理分类问题。
    * J+ ^. J7 m% z/ A! F2 M% \- C! l* P4 y2 _+ _. _2 M
    建构决策树的方式,是将整个资料集依据某个特征分为数个子资料集,再从子资料集依据某个特征,分为更小的资料集,直到子资料集都是同一个类别的资料,而该如何分类则是透过资讯熵(Entropy)和资讯增益(Information Gain)来决定。
    / P$ N% D3 \+ J- {, X* M/ Y; U( Y5 d" s
    1. 资讯熵(Entropy):用来衡量资料的不纯度,若资料为同一类Entropy=0,若资料「等分」成不同类别Entropy=1。3 ^8 m: x- n- r( c6 E) B3 I% j0 t

    + i6 G$ B  k, m' j9 l2. 资讯增益(Information Gain):用来衡量某个特征对于资料分类的能力,而建构决策树就是要找到具有最高资讯增益的分类法(得到纯度最高的分支)。简单来说,原本的资料集(High Entropy=E1),经过分类,得到多个资料集(Low Entropy=E2),其中的E1-E2=Information Gain。
    & h' T1 v+ e. F
    % p% M" n- z7 p. y* R! JDecision Tree的优点:
    $ C' S% E( a- \& e2 P◆ 决策树容易理解和解释
    ; P2 s: ~% _$ L" t8 i5 N◆ 资料分类不需要太多的计算
    1 Q. U0 B1 e4 J+ |) S8 C$ b+ {◆ 可以处理连续值和离散值
    1 }; T. L  {4 p; q6 T8 y◆ 资料准备相对比较容易
    2 h* W% V' d( a5 h6 s3 O- u, r(不需要做特征标准化、可以处理合理的缺失值、不受异常值的影响)1 K0 N) p" W3 H$ z2 L) l' d
    ◆ 因为解释性高,能用在决策分析中,找到一个最可能达到目标的策略: q$ T; k) [3 B) B5 C
    5 R2 ]$ ^) ~- Z) a4 |
    Decision Tree的缺点: **; |0 ~7 Z0 {  l  J3 e- }
    **◆ 容易过度拟合(Over-fitting)
    * z( h& M! |. E% H" L◆ 若类别太多,但资料量太少,效果比较差' R5 i; ]" N$ d" S. S2 j: y
    ( `& a; M+ V& D- H9 [; m
    四、随机森林(Random Forest)
    ' L5 A' \1 |5 C8 r' t随机森林,是取部分特征与部分资料产生决策树,每重复此步骤,会再产生一颗决策树,最后再进行多数决投票产生最终结果。& k4 I9 S  M3 Q; I( s; v
    & \' ]0 _1 g9 G, _
    随机森林可以降低决策树有过拟合的问题,因为最终结果是对所有的决策树结果进行投票,进而消除了单棵决策树的偏差。  O$ U, @. z2 o/ p% q4 M

    3 U5 d7 l, G' J( ]2 U  p! xRandom Forest Example (Source from Internet)0 w  Y% B7 @& ]# {7 }; i2 K* {$ V
    1 e$ _/ _9 O5 b) x5 |4 N
    Random Forest的优点:  j+ X1 }* p, f7 |5 w$ I9 l
    ◆ 随机森林的决策树够多,分类器就不会过拟合% H; L' k0 H+ m
    ◆ 每棵树会用到的资料和特征是随机决定的
    8 ?: w# X6 o5 [; d) u/ Y) E◆ 训练或预测时每棵树都能平行化的运行
    3 X5 n  R" l: d8 F3 K2 ?! Y
    - o6 e; V, o6 O, C' L/ m3 B! |: mRandom Forest的缺点: **5 f4 o$ t8 `+ a. _5 s" {5 |  o
    **◆ 当随机森林中的决策树个数很多时,训练时需要的空间和时间会比较大; i5 C) R6 _" E+ k6 \- e# P
    6 H% u' V- `0 d9 g, g) G$ e4 x5 i
    五、极限梯度提升(eXtreme Gradient Boosting, XGBoost)
    % f; V; X4 s$ T* S7 W7 ?0 N7 X其实会想写这篇文章,是因为在使用Kaggle资料做练习时,发现网站上有需多人使用XGBClassifier做分类预测,因此想进一步了解这个模型。8 S' e' B6 X: b: q0 X* I# V% a+ n

    ! w4 a, [. }5 Y& u4 |XGBoost的两个主要概念:
    6 F! t9 B$ r7 H0 F& W+ H' Y
    , k2 n, B$ c$ k- P' w& H9 N' X1. 回归树(Classification and Regression Tree, CART)/ J# B/ b; d: H6 e+ e/ F' c
    回归树拥有和决策树一样的分支方式,并在各个叶端(Leaf)有一个预测分数(Prediction Score),且回归树是可以做集成的,也就是把资料丢到所有树中,把得到的预测分数加总。( C6 q- K8 G9 f
    3 O  F! u: O1 n  g  P! A
    2. 梯度提升
    1 [8 ?8 V/ O# l1 D1 Z+ q先以常数作为预测,在之后每次预测时新加入一个学习参数,要找出最佳参数,是在每次迭代中,使用贪婪演算法计算Gain,并找出最佳分支做新增,并对负Gain的分支做删减(详细请参考文章1说明)。换句话说,就是「希望后面生成的树,能够修正前面一棵树犯错的地方」。7 A7 J. w  {/ M
    # Z0 n4 [' K1 v) t$ V) y7 q
    Random Forest 和XGBoost 差异如下图例:
    . M# R; A+ }( U) c1 u* qRandom Forest是由多个决策树所组成,但最终分类结果并未经过加权平均;而XGBoost是由连续的决策树所建构,从错误的分类中学习,并在后续的决策树中增加更高的权重。
    * G7 B$ k3 i* O  {7 _4 ?( y4 \# z9 l+ E8 @  Z9 e
    Random Forest and XGBoost Difference (Reference: 參考文章3)( a2 F1 {- E0 q5 n. R$ [5 D

    " C6 N9 ]/ C( F4 d) gXGBoost的优点:
    2 r& V' ?5 A5 q6 O5 d- W◆ 在损失函数中加入正则项,控制模型的复杂度,防止过拟合现象" |3 V! a. r: r
    ◆ 在每次迭代后,会将叶子节点的权重乘上该系数,来削弱每棵树的影响
    / g2 A; @2 Q1 t% D
    ) \7 }& |# P. n. x4 ^1 N6 H: cXGBoost的缺点: **
    1 w; c9 w1 M0 U**◆ 空间复杂度过高,需要储存特征值和特征对应样本的梯度统计值
    " x% _, V7 R* s) y5 ]) ]3 C————————————————7 e, q2 L0 W% ]( w$ }+ B
    版权声明:本文为CSDN博主「wuxiaopengnihao1」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    . M9 [# F5 }* t2 y1 B原文链接:https://blog.csdn.net/wuxiaopengnihao1/article/details/126686410, I% ]: M! m, p" v; Y$ [

    ; e3 m7 j/ v5 f1 X( k& K
    # |0 C7 r% F0 N' Z: c2 n
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-10 12:46 , Processed in 0.296597 second(s), 56 queries .

    回顶部