QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2730|回复: 0
打印 上一主题 下一主题

[其他资源] Python机器学习-多元分类的5种模型

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-5 16:26 |只看该作者 |正序浏览
    |招呼Ta 关注Ta

    7 G* {$ |0 [5 G; j( j, a; OPython机器学习-多元分类的5种模型/ `: J% b% `! b6 w3 u5 B1 B5 J
    6 T! v  P$ H0 \$ v" M
    最近上了些机器学习的课程,于是想透过Kaggle资料集来练习整个资料科学专案的流程,在模型训练阶段,虽然听过许多分类模型,但不是很了解其各别的优缺点与适合的使用时机,所以想来整理一篇文章,统整上课学习与网路资料,作为后续专案的优化方向!
    ! k' \/ U, H5 A6 x0 m+ ]0 W, m7 d) }0 t" \( h0 C' I  N
    首先,机器学习主要分为「监督式学习」与「非监督式学习」,两者的差异在于资料是否有「标签」。
    # F5 c1 {  t* e9 l- |
    7 x! Y4 R6 }1 ?" h+ V& \监督式学习(Supervised Learning):给予「有标签」的资料,举例来说:给机器一堆苹果和橘子的照片,并说明哪些是苹果、哪些是橘子,再拿一张新的照片询问机器这是苹果还是橘子,而监督式学习又可分为回归(Regression)和分类(Classification)。5 _/ |. c$ w0 S) x/ {
    : @1 E8 o. S( J6 L+ k1 a- O. q' a
    非监督式学习(Unsupervised Learning):给予「无标签」的资料,让机器找出潜在的规则,举例来说:给予机器一堆苹果和橘子的照片,但没有告诉机器这些照片各别是哪种水果,让机器自行找到资料间的相似性,而非监督式学习又可分为分群(Clustering)和降维(Dimension Reduction)。( W4 @! @0 q& c4 z. k! T5 E* }

    . c2 ?+ V- [( ?* I- w0 Y/ X这篇文章会以监督式学习中的分类模型为主。( W  D4 A0 _! I  V6 }+ ]# a
    6 q$ A3 w3 x8 ^$ X. N; Z0 x0 h
    一、逻辑回归(Logistic Regression)
    * z# B: k7 B' i逻辑回归是个二元分类(Binary Classification)的模型,并有其对应的机率值,举例:明天会下雨的机率有90%。( j! ^+ \! ?7 `1 N/ n
    * c% x0 L7 J+ l$ E- N
    基本概念是利用线性回归线(Linear Regression Line),将资料分为A/B两类,再透过Sigmoid Function (or Logistic Function) 输出A类别的机率值(0~1),若机率>0.5则判断为A类别,因为是二元分类,所以当机率<0.5则被归类为B类别。
    0 h+ [# `/ W& p, e  m* M# c1 d, D" v' V) {/ Q
    若需处理多元分类问题,有两种方法:$ G( u' n. l0 M$ D& Z
    1. One versus Rest (or One versus All):将每个分类与其他剩余的资料做比较,若有N个类别,就需要N个二元分类器。以下方图例来说明,若有类别1~3,每次各使用一个类别与剩余的两个类别作二元分类后,会得到三个分类器,预测时把资料放到三个分类器中,看哪个分类器的分数较高,就判断为该类别。6 ^  O: V$ W5 }4 C3 w
    & _9 D! N0 {) P5 C# ~) H
    One versus Rest Example (Source from Internet)
    + U6 U! U5 A4 E$ a; o' I4 k) u# H" u# ~6 ?. g  h* n3 _; N3 _3 ]
    2. One versus One:每次选择两个类别做分类,若有N个类别,就会有N*(N-1)/2个分类器,将每次分类的结果做投票,最后判断为票数最高的那个类别。举下方图例来说,有三个类别,会有三组分类器,最后新资料会判断为票数较高的类别1。
    ! ^' t4 t8 y( h* w" O8 Q
    6 c# M: U. R4 f- J) W% wOne versus One Example (Source from Internet)
    6 h4 \1 G- ^: t- K  g2 b; ^  a) H
    ( @2 s( c6 _& q* j! j% F$ Y  FLogistic Regression的优点:
    8 B* r5 h+ |" Q8 ~8 R1 t6 |5 @◆ 资料线性可分(包含在高维度空间找到linear plane)
    9 J/ e4 i1 Z8 n$ u! \◆ 除了分类,也可以得到A/B两类的机率
    . m! I" F- N" g6 r( Z% _◆ 执行速度较快
    0 u  N/ m& p# A( t% R: r6 q. i" b2 ^6 P) J$ P
    Logistic Regression的缺点:
    2 Z+ s( E+ A4 n! P◆ 线性回归线的切法可能不够漂亮7 }; @* w0 q9 }1 e0 f6 L- q
    ◆ 不能很好地处理大量、多类特征6 F$ u: ]- R' L

    / S* g( w4 y+ h- @二、 支持向量机( 支持向量机,SVM)
    ( v' r# z+ {$ x  g: y支持向量机(Support Vector Machine)是在寻找一个超平面(Hyper-plane)来做分类,并使两个类别之间的边界距离最大化(会忽略异常点Outlier)。; ^" e6 ~5 F9 D& I! N1 F& B- W0 g

    " @0 B9 Z* c3 R: @/ y* }: c- w! HSVM也可使用于非线性分类(如下图B),透过Kernels functions将低维空间转换为高维空间,让资料可以在高维空间被线性分类。想像红色球的重量比蓝色球还重,在平面上一拍,让球往上弹,重量重的红色球会较快落下,在立体空间就可以找出个平面来切分红色和蓝色球。4 S7 D4 k2 ?% `% V7 ^
    ' g) l  A9 m/ {6 A" r/ ^6 m
    Support Vector Machine Example (Source from Internet)
    : V' N+ _5 U& M: n5 K
    ) S1 P2 R; z7 }; _# y( @/ t- n& WSVM的优点:" A: [9 q- p+ `0 H
    ◆ 切出来的线或平面很漂亮,拥有最大边界距离(margin)8 x5 i* q' r$ ]7 z. t
    ◆ 在高维空间可以使用(即使维度数大于样本数也有效)7 S& f! t( @7 Z! T! k# j- k
    ◆ 在资料量较小、非线性、高维度与局部最小点等情况下有相对的优势# W8 L0 @; L' W9 r3 h7 n) \
    - Q) h+ i/ ]1 ~$ f/ _, N" L
    SVM的缺点:
    8 D4 b3 D7 G2 M, Z* K◆ 当资料太多时,所需的训练时间太长,而使效果不佳) e. R) p  v) ?4 @  |
    ◆ 当资料集有太多noise时(如目标类别有重叠),预测的效果也会不好. F! r7 k; _' G; q
    ◆ SVM不会直接提供机率的估计值
    $ _# t+ C, c3 w- p6 r, |/ j+ P: V  C8 o" f. W4 H+ p0 ~
    三、决策树(Decision Tree)
    5 |! q- Q0 c+ s! D" L透过模型预测可以得知某个方程式来做分类,但方程式可能很难懂或很难解释,这时需要决策树(Decision Tree),它的准确性可能没有很精准,但「解释性」高,所以决策树是一种条件式的分类器,以树状结构来处理分类问题。- v: i; a6 g9 Q) N' n

    : ~+ U) x/ v1 v! Y; d建构决策树的方式,是将整个资料集依据某个特征分为数个子资料集,再从子资料集依据某个特征,分为更小的资料集,直到子资料集都是同一个类别的资料,而该如何分类则是透过资讯熵(Entropy)和资讯增益(Information Gain)来决定。
    * ?6 _9 k* ]6 T( s3 K7 ?
    2 U9 e$ C3 o3 K1. 资讯熵(Entropy):用来衡量资料的不纯度,若资料为同一类Entropy=0,若资料「等分」成不同类别Entropy=1。
    ! u# |- `' s. \- x& ?
    ! n/ {& m+ N* j2 j6 h2. 资讯增益(Information Gain):用来衡量某个特征对于资料分类的能力,而建构决策树就是要找到具有最高资讯增益的分类法(得到纯度最高的分支)。简单来说,原本的资料集(High Entropy=E1),经过分类,得到多个资料集(Low Entropy=E2),其中的E1-E2=Information Gain。& |/ D" I1 l% X7 p0 M

    - J( k1 g# O# a2 r7 KDecision Tree的优点:- h" n- I: \# K
    ◆ 决策树容易理解和解释" {/ A6 S) _! P6 x
    ◆ 资料分类不需要太多的计算
    ! k: k  s# G5 W◆ 可以处理连续值和离散值
    - Q3 U( T) X* d+ }" @% T◆ 资料准备相对比较容易
    + T2 T/ n" V' `8 o9 n7 c+ X2 m% U/ S8 e9 }(不需要做特征标准化、可以处理合理的缺失值、不受异常值的影响)8 ^. H& C$ F- z6 A% X) F
    ◆ 因为解释性高,能用在决策分析中,找到一个最可能达到目标的策略! f3 D# Q5 M' i

    1 R5 B3 a8 Z! `" g9 {4 E: [6 MDecision Tree的缺点: **- a% y2 N1 ^. }: {% q$ w& b4 E
    **◆ 容易过度拟合(Over-fitting)
    / ^: @/ o1 A$ c) F- d◆ 若类别太多,但资料量太少,效果比较差
    % @7 d% A8 F& `1 [" ~3 C+ c0 H  T2 W; U" K1 D$ N  W, L6 k2 u, i7 Z
    四、随机森林(Random Forest)
    ( p8 y1 M2 ~) c' K8 P随机森林,是取部分特征与部分资料产生决策树,每重复此步骤,会再产生一颗决策树,最后再进行多数决投票产生最终结果。
    # I' \: y2 \# u! B- r
    % n. H& W/ Z3 q* U' ^8 u1 o随机森林可以降低决策树有过拟合的问题,因为最终结果是对所有的决策树结果进行投票,进而消除了单棵决策树的偏差。2 O# U7 \6 c+ l5 |" I8 c6 {

    + ^* {1 a) D4 [! g- G% qRandom Forest Example (Source from Internet): H# ~4 q: u( x9 s$ M. S
    - w+ u& S6 B. d+ n) q
    Random Forest的优点:
    ) x$ }6 N# ~: B2 n; ?◆ 随机森林的决策树够多,分类器就不会过拟合
    ; U. u% l9 H! b◆ 每棵树会用到的资料和特征是随机决定的
    ; U" f  s& M0 b+ R7 j  ~' s- W◆ 训练或预测时每棵树都能平行化的运行
    2 r: b7 @$ S4 v: o* V# o3 F' n7 K6 z6 Z
    ! [% Z# U& n* n5 Z* n4 KRandom Forest的缺点: **
    : O3 p6 H) f3 W' _**◆ 当随机森林中的决策树个数很多时,训练时需要的空间和时间会比较大
    5 Z9 f2 r' u; r$ w
    8 [2 Y. }5 k( e' G. ]0 S五、极限梯度提升(eXtreme Gradient Boosting, XGBoost)
    ! {6 e* {. h/ ?" ?' p其实会想写这篇文章,是因为在使用Kaggle资料做练习时,发现网站上有需多人使用XGBClassifier做分类预测,因此想进一步了解这个模型。9 I* _/ t- S: H7 b: y$ ]
    " s+ c  b2 e7 v2 b
    XGBoost的两个主要概念:
    5 C, |% j  p* ^
    - D. H8 H9 W+ B* I6 F/ ~' W1. 回归树(Classification and Regression Tree, CART)% _+ l4 T/ W( O+ ?' N
    回归树拥有和决策树一样的分支方式,并在各个叶端(Leaf)有一个预测分数(Prediction Score),且回归树是可以做集成的,也就是把资料丢到所有树中,把得到的预测分数加总。. `0 O3 W; E5 @) m! q

    # n! R$ G5 v( ]# I' C2. 梯度提升- l  N  G6 b* r$ {3 h+ C) D0 ]* |
    先以常数作为预测,在之后每次预测时新加入一个学习参数,要找出最佳参数,是在每次迭代中,使用贪婪演算法计算Gain,并找出最佳分支做新增,并对负Gain的分支做删减(详细请参考文章1说明)。换句话说,就是「希望后面生成的树,能够修正前面一棵树犯错的地方」。6 v+ E9 A4 y6 ~0 _2 ^* A

    ; V5 h  m9 \1 B& N2 [Random Forest 和XGBoost 差异如下图例:
    % ?8 u* a7 l2 G& G- pRandom Forest是由多个决策树所组成,但最终分类结果并未经过加权平均;而XGBoost是由连续的决策树所建构,从错误的分类中学习,并在后续的决策树中增加更高的权重。
    1 J- z; E/ T8 U* I: H7 e+ p8 S* M4 k
    Random Forest and XGBoost Difference (Reference: 參考文章3)
    / e8 L( _5 `. Z- M
    8 ^3 b* k6 e  z! P" p9 |  zXGBoost的优点:
    2 a7 d9 U4 a% \+ M, R◆ 在损失函数中加入正则项,控制模型的复杂度,防止过拟合现象5 y3 U! w; I# y# R# ?7 M9 N* J
    ◆ 在每次迭代后,会将叶子节点的权重乘上该系数,来削弱每棵树的影响' B0 W" g  c) `1 q- f, J, u

    2 }6 F3 t# y7 B4 n2 S# l7 xXGBoost的缺点: **
    0 `1 R, m  ?1 D5 p( @% ^+ k! m; g**◆ 空间复杂度过高,需要储存特征值和特征对应样本的梯度统计值
    ! u1 W7 ~: P0 L  V" l2 |————————————————
    ) n* G8 `0 Y$ Q5 ?$ e- |版权声明:本文为CSDN博主「wuxiaopengnihao1」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    + t! o, H% L+ Y; O: O原文链接:https://blog.csdn.net/wuxiaopengnihao1/article/details/126686410' u( e' j; H7 M& b0 Q

    6 B: I) _' l% L( F) W% L9 Z2 t0 z! ?% X( w
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-15 07:59 , Processed in 0.435330 second(s), 51 queries .

    回顶部