QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2320|回复: 0
打印 上一主题 下一主题

[其他资源] Python机器学习-多元分类的5种模型

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-5 16:26 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    ! }  m! p4 m: t+ E. WPython机器学习-多元分类的5种模型
    3 x0 u3 B" h" i$ O
    : m% u5 |, ^$ x: G6 X9 R% x最近上了些机器学习的课程,于是想透过Kaggle资料集来练习整个资料科学专案的流程,在模型训练阶段,虽然听过许多分类模型,但不是很了解其各别的优缺点与适合的使用时机,所以想来整理一篇文章,统整上课学习与网路资料,作为后续专案的优化方向!
    $ v- \: r2 V( L' y6 V# s( t# \# J
    首先,机器学习主要分为「监督式学习」与「非监督式学习」,两者的差异在于资料是否有「标签」。
    7 R* z4 i- R- E- l" R6 r( C* v3 z: u! z
    监督式学习(Supervised Learning):给予「有标签」的资料,举例来说:给机器一堆苹果和橘子的照片,并说明哪些是苹果、哪些是橘子,再拿一张新的照片询问机器这是苹果还是橘子,而监督式学习又可分为回归(Regression)和分类(Classification)。
    # P; t1 h- F5 v0 B9 O( d
    ) P/ l! P) H9 L. [6 l非监督式学习(Unsupervised Learning):给予「无标签」的资料,让机器找出潜在的规则,举例来说:给予机器一堆苹果和橘子的照片,但没有告诉机器这些照片各别是哪种水果,让机器自行找到资料间的相似性,而非监督式学习又可分为分群(Clustering)和降维(Dimension Reduction)。
    " Y- a: \7 b. [/ D1 G) X, w2 \! ?9 O! f
    这篇文章会以监督式学习中的分类模型为主。
    : k/ f; t/ t& j* s$ I
    4 W- ~) c. n- y+ r( M" X8 E一、逻辑回归(Logistic Regression)
    : P; u( O! E# L1 V/ p; v逻辑回归是个二元分类(Binary Classification)的模型,并有其对应的机率值,举例:明天会下雨的机率有90%。
    / Y! }! M  J5 M, h* Y5 Y
    0 J+ ^" f: q( u3 W6 }. W1 I3 D, q基本概念是利用线性回归线(Linear Regression Line),将资料分为A/B两类,再透过Sigmoid Function (or Logistic Function) 输出A类别的机率值(0~1),若机率>0.5则判断为A类别,因为是二元分类,所以当机率<0.5则被归类为B类别。! r+ p2 N  w, ^5 B3 K  W8 a: m8 n* p

    # @+ e% _, U  w! ], {1 T; x3 @若需处理多元分类问题,有两种方法:; j. z  E/ e8 ?8 l
    1. One versus Rest (or One versus All):将每个分类与其他剩余的资料做比较,若有N个类别,就需要N个二元分类器。以下方图例来说明,若有类别1~3,每次各使用一个类别与剩余的两个类别作二元分类后,会得到三个分类器,预测时把资料放到三个分类器中,看哪个分类器的分数较高,就判断为该类别。% R9 U  J2 F8 a9 N

    1 C  O: J: P) z$ C0 wOne versus Rest Example (Source from Internet)6 |, y! Y* D5 f& t' ~

    / A9 q* d3 y" T4 G' q4 d8 O2. One versus One:每次选择两个类别做分类,若有N个类别,就会有N*(N-1)/2个分类器,将每次分类的结果做投票,最后判断为票数最高的那个类别。举下方图例来说,有三个类别,会有三组分类器,最后新资料会判断为票数较高的类别1。4 V. s6 {9 @/ @7 f/ X% V
    & M# I# e4 i3 `7 b$ E
    One versus One Example (Source from Internet)/ _) E- N0 y6 ~. n: T
    ) i. U% Z5 }1 I" j2 {
    Logistic Regression的优点:
    5 D. v' ]8 b3 f& O9 W◆ 资料线性可分(包含在高维度空间找到linear plane)/ y- ^. `( b8 ~% z* D  Q# j: k" J
    ◆ 除了分类,也可以得到A/B两类的机率
    ( Y0 f& h( ?' j$ c9 B; D2 m◆ 执行速度较快
    * Q2 O- ]3 S! j  |  U. j& p
    8 T5 s  G9 s* r2 U: T, ]Logistic Regression的缺点:
    ) d9 z5 I0 {) Z◆ 线性回归线的切法可能不够漂亮0 B% q" Q/ I- K  q; _
    ◆ 不能很好地处理大量、多类特征
    0 t& x% \7 _6 V
    + N6 H" d7 ?% ?- ^3 ]6 N% u2 T二、 支持向量机( 支持向量机,SVM)
    ( L2 h5 U7 @7 p* \0 s支持向量机(Support Vector Machine)是在寻找一个超平面(Hyper-plane)来做分类,并使两个类别之间的边界距离最大化(会忽略异常点Outlier)。
    : }" C7 S" ^( }" l7 s5 I1 j- F4 I: d
    SVM也可使用于非线性分类(如下图B),透过Kernels functions将低维空间转换为高维空间,让资料可以在高维空间被线性分类。想像红色球的重量比蓝色球还重,在平面上一拍,让球往上弹,重量重的红色球会较快落下,在立体空间就可以找出个平面来切分红色和蓝色球。$ }" u$ j6 f& e5 F# l/ G- S
    " V  O: l3 a' }" b, P& Y
    Support Vector Machine Example (Source from Internet)
    , d. K1 G* G& c. d
      q6 }) n' c' y) X# HSVM的优点:0 V; K6 {+ T; ~7 M  F
    ◆ 切出来的线或平面很漂亮,拥有最大边界距离(margin)! N0 c" ]' W2 `. F" U
    ◆ 在高维空间可以使用(即使维度数大于样本数也有效)
    % w* n2 g9 |. M4 M1 |7 z◆ 在资料量较小、非线性、高维度与局部最小点等情况下有相对的优势
    / [, V# s. \/ l% N6 |# P- }& V  w: N4 ~1 v
    SVM的缺点:
    & S$ t7 @" M0 P4 @' X/ `% H/ t◆ 当资料太多时,所需的训练时间太长,而使效果不佳2 x/ {. D6 Z* x" a2 r
    ◆ 当资料集有太多noise时(如目标类别有重叠),预测的效果也会不好
    0 ?/ d, m  z1 _& t◆ SVM不会直接提供机率的估计值0 o6 t- \$ ?1 O( A; ?8 n2 I. Y
    % C+ G1 S) a+ y8 ?9 j! T9 G2 F
    三、决策树(Decision Tree)
    6 {- F2 U9 `' @7 W* I0 _透过模型预测可以得知某个方程式来做分类,但方程式可能很难懂或很难解释,这时需要决策树(Decision Tree),它的准确性可能没有很精准,但「解释性」高,所以决策树是一种条件式的分类器,以树状结构来处理分类问题。' y# ?/ X4 o+ x1 _! N

    . I9 S* v: W/ y$ U. s建构决策树的方式,是将整个资料集依据某个特征分为数个子资料集,再从子资料集依据某个特征,分为更小的资料集,直到子资料集都是同一个类别的资料,而该如何分类则是透过资讯熵(Entropy)和资讯增益(Information Gain)来决定。( O" p. B7 a+ B
    % C9 d2 l) @: |$ e
    1. 资讯熵(Entropy):用来衡量资料的不纯度,若资料为同一类Entropy=0,若资料「等分」成不同类别Entropy=1。* q+ C. B8 m  _9 K# [* i
    8 c$ o, }7 V% Z5 f  O, ]) [
    2. 资讯增益(Information Gain):用来衡量某个特征对于资料分类的能力,而建构决策树就是要找到具有最高资讯增益的分类法(得到纯度最高的分支)。简单来说,原本的资料集(High Entropy=E1),经过分类,得到多个资料集(Low Entropy=E2),其中的E1-E2=Information Gain。' Q1 D$ d% n! O9 O1 i
    + |2 f0 E' P( n. c7 a
    Decision Tree的优点:
    ( s* v/ [6 H+ N  S◆ 决策树容易理解和解释
    * H( @  E" M$ R: a◆ 资料分类不需要太多的计算
    0 N' `9 C2 `! ?◆ 可以处理连续值和离散值; L0 P  s- y2 s# g! S! d! m9 Z, w
    ◆ 资料准备相对比较容易3 I  p: ]& l/ D+ b4 y
    (不需要做特征标准化、可以处理合理的缺失值、不受异常值的影响)
    ; g' u( t$ T% q/ o; M1 l+ h) h◆ 因为解释性高,能用在决策分析中,找到一个最可能达到目标的策略
    / n9 T# Q  w- a' `( `1 ]# w* b' l  A& i
    Decision Tree的缺点: **
    8 R8 L( R2 T" {/ e9 n/ H**◆ 容易过度拟合(Over-fitting)
    : n4 I: K; j: T" k  X" I◆ 若类别太多,但资料量太少,效果比较差
    9 I6 N$ F; ^; ?+ y
    ! y$ O4 u: p* X4 L0 l6 q/ r: m" I% f7 w四、随机森林(Random Forest)3 x4 w0 T  _6 ^( Q
    随机森林,是取部分特征与部分资料产生决策树,每重复此步骤,会再产生一颗决策树,最后再进行多数决投票产生最终结果。, ?$ O7 Q- S9 R& t2 z  o/ d
    6 F' s; I( n+ ]: }# P! _- V& G* {
    随机森林可以降低决策树有过拟合的问题,因为最终结果是对所有的决策树结果进行投票,进而消除了单棵决策树的偏差。
    ! b* S6 X$ W3 F( w' N% D) m
    ; f" f1 `1 g7 c3 ^6 N1 o% f2 HRandom Forest Example (Source from Internet)3 v8 E& Q2 W" l4 ^
    + _1 M$ D/ `$ c* Z# ]4 }
    Random Forest的优点:
    ! X7 J" a  `2 t! Q◆ 随机森林的决策树够多,分类器就不会过拟合6 i  w- P, i# g$ ~7 g# c, w
    ◆ 每棵树会用到的资料和特征是随机决定的& X. n# D' p* a4 L1 Y% u. ~
    ◆ 训练或预测时每棵树都能平行化的运行3 l) k3 ^' c, T* V# J* p
    + r8 ^+ C$ p# [. q9 Z7 S. q
    Random Forest的缺点: **
    4 [! I# E" \" x3 Q9 l**◆ 当随机森林中的决策树个数很多时,训练时需要的空间和时间会比较大
    % L( z; y. O6 J0 d
    5 y# U, e+ k- ~. E五、极限梯度提升(eXtreme Gradient Boosting, XGBoost)
    6 B' b* I1 s2 {6 ~# U其实会想写这篇文章,是因为在使用Kaggle资料做练习时,发现网站上有需多人使用XGBClassifier做分类预测,因此想进一步了解这个模型。
    8 ?. b. O! e- K/ E3 o* y) V
    % T% b2 m4 A- lXGBoost的两个主要概念:0 j% @, B3 Z. X: m, k

    7 v! [* z# Z3 A1. 回归树(Classification and Regression Tree, CART)2 t/ B  g; e' N" Y  y
    回归树拥有和决策树一样的分支方式,并在各个叶端(Leaf)有一个预测分数(Prediction Score),且回归树是可以做集成的,也就是把资料丢到所有树中,把得到的预测分数加总。
    : J1 H0 X+ \) D) u5 s! X5 c- {  p3 D
    2. 梯度提升- b0 T4 T+ F$ t% I
    先以常数作为预测,在之后每次预测时新加入一个学习参数,要找出最佳参数,是在每次迭代中,使用贪婪演算法计算Gain,并找出最佳分支做新增,并对负Gain的分支做删减(详细请参考文章1说明)。换句话说,就是「希望后面生成的树,能够修正前面一棵树犯错的地方」。# ~' n; O7 D8 I
    ) J8 ^( f( K  {. l
    Random Forest 和XGBoost 差异如下图例:, |' e# @9 N" N5 j. v
    Random Forest是由多个决策树所组成,但最终分类结果并未经过加权平均;而XGBoost是由连续的决策树所建构,从错误的分类中学习,并在后续的决策树中增加更高的权重。5 S- h6 U( J" g. X' ^  K) v

    1 T) g# k. [0 P3 O1 S2 ~Random Forest and XGBoost Difference (Reference: 參考文章3)8 m: D- J' d1 A0 Y" w

    : G3 c! s4 O# X2 }+ ?; Z6 dXGBoost的优点:7 ^0 Z4 N' a' Z' [" @+ F6 I9 ^
    ◆ 在损失函数中加入正则项,控制模型的复杂度,防止过拟合现象- n+ P' [3 S9 l: p
    ◆ 在每次迭代后,会将叶子节点的权重乘上该系数,来削弱每棵树的影响- G, n6 G. s+ r2 }

    6 K6 o, k: e3 K- Z$ dXGBoost的缺点: **
    ! T' O/ o; x5 u**◆ 空间复杂度过高,需要储存特征值和特征对应样本的梯度统计值
    % o, {; L1 D3 R; ^0 S4 ^3 Q5 [————————————————
    7 i+ P0 @! z4 Z版权声明:本文为CSDN博主「wuxiaopengnihao1」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    ! V$ C4 O9 X9 `5 j2 t- I( V; \原文链接:https://blog.csdn.net/wuxiaopengnihao1/article/details/126686410  c+ f1 Y) I. h6 V1 H4 u

    + u# S% A  B; ?$ G2 f4 s! x. j( g  ^1 ^' @) \0 H1 W% N
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-9-28 20:18 , Processed in 0.366338 second(s), 50 queries .

    回顶部