QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2762|回复: 0
打印 上一主题 下一主题

[其他资源] Python机器学习-多元分类的5种模型

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-5 16:26 |只看该作者 |正序浏览
    |招呼Ta 关注Ta
    7 B& D5 j9 x2 e7 ?5 P9 L/ L
    Python机器学习-多元分类的5种模型7 P) c5 e6 w1 k8 [+ D+ M$ p

    7 Y9 x6 h% ?8 B2 w+ U: u- b最近上了些机器学习的课程,于是想透过Kaggle资料集来练习整个资料科学专案的流程,在模型训练阶段,虽然听过许多分类模型,但不是很了解其各别的优缺点与适合的使用时机,所以想来整理一篇文章,统整上课学习与网路资料,作为后续专案的优化方向!) `9 G" a, o) H/ l7 v/ G

    ( n1 H) f0 T- B首先,机器学习主要分为「监督式学习」与「非监督式学习」,两者的差异在于资料是否有「标签」。7 V& m/ g& R' R  s0 Q6 h
    , M8 w4 V1 ?% h5 A# ?6 {. T1 ~5 s, _
    监督式学习(Supervised Learning):给予「有标签」的资料,举例来说:给机器一堆苹果和橘子的照片,并说明哪些是苹果、哪些是橘子,再拿一张新的照片询问机器这是苹果还是橘子,而监督式学习又可分为回归(Regression)和分类(Classification)。
    # m# G. X- N" A1 b( N
    1 ?4 F% E' l: }5 L非监督式学习(Unsupervised Learning):给予「无标签」的资料,让机器找出潜在的规则,举例来说:给予机器一堆苹果和橘子的照片,但没有告诉机器这些照片各别是哪种水果,让机器自行找到资料间的相似性,而非监督式学习又可分为分群(Clustering)和降维(Dimension Reduction)。
    9 z8 t, G7 ~4 ?4 Y9 K# K* j8 [( S# h# |% n9 `( n1 \" x6 Q
    这篇文章会以监督式学习中的分类模型为主。/ n' |% y* F0 M8 T
    8 i( P8 x8 a0 C# W/ @- }
    一、逻辑回归(Logistic Regression): }0 f$ a* H& o5 l9 s, n& ~
    逻辑回归是个二元分类(Binary Classification)的模型,并有其对应的机率值,举例:明天会下雨的机率有90%。
    + T- s7 m7 m. C5 x3 |0 k+ U0 @5 s- k
    基本概念是利用线性回归线(Linear Regression Line),将资料分为A/B两类,再透过Sigmoid Function (or Logistic Function) 输出A类别的机率值(0~1),若机率>0.5则判断为A类别,因为是二元分类,所以当机率<0.5则被归类为B类别。
    2 P6 x  C% m$ [$ a3 ~2 I* \- k
    / e# }# ]' D) o; e  L1 M若需处理多元分类问题,有两种方法:& ?! T! ]' ^9 D
    1. One versus Rest (or One versus All):将每个分类与其他剩余的资料做比较,若有N个类别,就需要N个二元分类器。以下方图例来说明,若有类别1~3,每次各使用一个类别与剩余的两个类别作二元分类后,会得到三个分类器,预测时把资料放到三个分类器中,看哪个分类器的分数较高,就判断为该类别。8 C3 e4 T) ], S+ e. l8 |6 e
    6 v+ x3 G, _7 L/ I# E
    One versus Rest Example (Source from Internet)( S& W, W+ ^* ?6 s. @/ y7 e
    . G! S0 f4 h& O
    2. One versus One:每次选择两个类别做分类,若有N个类别,就会有N*(N-1)/2个分类器,将每次分类的结果做投票,最后判断为票数最高的那个类别。举下方图例来说,有三个类别,会有三组分类器,最后新资料会判断为票数较高的类别1。
    2 c3 b% S8 g+ v2 v5 V9 ]3 j7 W& g- V, i( m' X9 p' d  V6 H
    One versus One Example (Source from Internet)
    0 i, G4 v: i' ~! B, W8 k0 z
    8 q# b8 G; @3 E9 G7 @, G1 QLogistic Regression的优点:
    0 E0 Y) o8 y9 s/ y7 {0 r◆ 资料线性可分(包含在高维度空间找到linear plane)
    + W) V+ v3 a& \, ?◆ 除了分类,也可以得到A/B两类的机率
    0 u  ^# i0 p# `% b% J) W◆ 执行速度较快
    & ^4 W- m$ ~9 W, t4 s. N- u8 h- |, j
    Logistic Regression的缺点:
    + _4 W: d* s8 ^! j◆ 线性回归线的切法可能不够漂亮
      J" @" F1 Y: K- r' \1 n◆ 不能很好地处理大量、多类特征5 {8 p: Z% M$ f3 v+ q+ D. J
    # g! k4 H% n" X; z& ^3 r
    二、 支持向量机( 支持向量机,SVM)
    & \0 R+ D0 B1 y支持向量机(Support Vector Machine)是在寻找一个超平面(Hyper-plane)来做分类,并使两个类别之间的边界距离最大化(会忽略异常点Outlier)。# Y7 Q1 V2 @; [1 Q! I) [! @
    # H8 R# P5 c% v$ S" L* ~- X& V4 q( `
    SVM也可使用于非线性分类(如下图B),透过Kernels functions将低维空间转换为高维空间,让资料可以在高维空间被线性分类。想像红色球的重量比蓝色球还重,在平面上一拍,让球往上弹,重量重的红色球会较快落下,在立体空间就可以找出个平面来切分红色和蓝色球。
    5 q& K" c+ d# U, @+ t' E+ c, r  D9 _& z8 N; ]8 y3 z
    Support Vector Machine Example (Source from Internet)! e1 i% k8 f, e0 {) e
    ; q' [1 ?, \0 \6 S3 o9 p
    SVM的优点:
    * P; @% z  Z0 e+ I* u◆ 切出来的线或平面很漂亮,拥有最大边界距离(margin)# l' C) c8 ^& W
    ◆ 在高维空间可以使用(即使维度数大于样本数也有效)
    % q! ]$ r% x) \* z◆ 在资料量较小、非线性、高维度与局部最小点等情况下有相对的优势
    0 G4 J6 F9 i, H1 Q5 e# O( k9 \2 V5 `8 J& T4 Y" ~
    SVM的缺点:6 y0 e' s0 i0 L6 t
    ◆ 当资料太多时,所需的训练时间太长,而使效果不佳
    % u, s1 P! F; d/ }& S7 {- g◆ 当资料集有太多noise时(如目标类别有重叠),预测的效果也会不好
    7 a' ]2 Q2 G8 H  y- v9 S, W◆ SVM不会直接提供机率的估计值: N9 \$ l' L3 }. Y! ^# s0 y9 }

    ! k. l: E; K; c( h" z三、决策树(Decision Tree), D0 [! P1 c: K$ ]
    透过模型预测可以得知某个方程式来做分类,但方程式可能很难懂或很难解释,这时需要决策树(Decision Tree),它的准确性可能没有很精准,但「解释性」高,所以决策树是一种条件式的分类器,以树状结构来处理分类问题。, p1 q' n; N: r( K- g

    4 M( b0 G! X( v- x& e3 S9 w建构决策树的方式,是将整个资料集依据某个特征分为数个子资料集,再从子资料集依据某个特征,分为更小的资料集,直到子资料集都是同一个类别的资料,而该如何分类则是透过资讯熵(Entropy)和资讯增益(Information Gain)来决定。
    2 U$ |# Y' G6 u$ R
    4 N/ z( H6 g& M& b4 S( J% R% R1. 资讯熵(Entropy):用来衡量资料的不纯度,若资料为同一类Entropy=0,若资料「等分」成不同类别Entropy=1。
    ) a4 a1 q: L* \! m" v4 X9 \3 K2 K0 I0 h* ]9 _& J
    2. 资讯增益(Information Gain):用来衡量某个特征对于资料分类的能力,而建构决策树就是要找到具有最高资讯增益的分类法(得到纯度最高的分支)。简单来说,原本的资料集(High Entropy=E1),经过分类,得到多个资料集(Low Entropy=E2),其中的E1-E2=Information Gain。
    : J9 l) G, |4 Y- P7 i  ?1 s) o( p  c& V- `
    Decision Tree的优点:! d2 i! A) q( N" m1 R
    ◆ 决策树容易理解和解释, O+ S, C# L1 J
    ◆ 资料分类不需要太多的计算
    2 X5 a  x; j1 L' {! F◆ 可以处理连续值和离散值
    ! ?: t- A# Z8 u. |" ?◆ 资料准备相对比较容易5 G9 C8 S0 X! u. o( S$ P+ p
    (不需要做特征标准化、可以处理合理的缺失值、不受异常值的影响)
    & w1 Y. ?* N5 N8 o8 y◆ 因为解释性高,能用在决策分析中,找到一个最可能达到目标的策略* F  s7 w  u8 B) L- w( b
    6 C" M! r! g1 \* C
    Decision Tree的缺点: **5 `1 X3 U4 [2 Z3 U& e" l
    **◆ 容易过度拟合(Over-fitting)  H( m' V$ A, O+ Y9 O3 d
    ◆ 若类别太多,但资料量太少,效果比较差, t) j" E( Y$ Y. g+ Z# @

    % K' l9 |: t) d; H5 N四、随机森林(Random Forest)
    ' d' L+ Q5 L9 q5 S* `随机森林,是取部分特征与部分资料产生决策树,每重复此步骤,会再产生一颗决策树,最后再进行多数决投票产生最终结果。; B' G$ c, U- [3 I) u( {

    + ~# D0 W& W3 M) k5 j' F随机森林可以降低决策树有过拟合的问题,因为最终结果是对所有的决策树结果进行投票,进而消除了单棵决策树的偏差。
      @* O1 u; c6 s% j" y  j) D
    " U5 E/ t) {# ~( S- ~1 H& RRandom Forest Example (Source from Internet)
    : d1 ^& D) {% V( H
    ( n2 A% p, M4 T) ^( VRandom Forest的优点:
    : F: s9 `0 ~' \0 g1 I◆ 随机森林的决策树够多,分类器就不会过拟合3 Q* |9 ?' {& @, i9 A
    ◆ 每棵树会用到的资料和特征是随机决定的
    & r+ A5 G- Z" B3 m! `. q◆ 训练或预测时每棵树都能平行化的运行2 t% u+ P- h1 a! R: N5 [
    1 i7 [$ A- k1 U5 t9 n! ?1 v8 G0 B* I' t
    Random Forest的缺点: **
    4 ^# G2 D: O( Q5 w**◆ 当随机森林中的决策树个数很多时,训练时需要的空间和时间会比较大" |$ O. G. ?/ E) U% t9 I7 a

    - C" i: k$ N  L0 E9 {/ y# P五、极限梯度提升(eXtreme Gradient Boosting, XGBoost)
    2 `" T4 b. s& w" |/ }! {; b其实会想写这篇文章,是因为在使用Kaggle资料做练习时,发现网站上有需多人使用XGBClassifier做分类预测,因此想进一步了解这个模型。  d. x, |% D0 a) f! v

    % w0 j& C3 P% q0 @( c3 u& VXGBoost的两个主要概念:
    % [* A) Y' k: B- n% l! C" _: J# @. B) M
    1. 回归树(Classification and Regression Tree, CART)& g7 V; O& D! g9 R
    回归树拥有和决策树一样的分支方式,并在各个叶端(Leaf)有一个预测分数(Prediction Score),且回归树是可以做集成的,也就是把资料丢到所有树中,把得到的预测分数加总。
    ; j/ J1 F3 T) B- v3 r7 q
      l9 }! v1 ], }6 \* ]5 {! z2. 梯度提升+ [' y! o, ?+ N0 K: Q  Z' x' g
    先以常数作为预测,在之后每次预测时新加入一个学习参数,要找出最佳参数,是在每次迭代中,使用贪婪演算法计算Gain,并找出最佳分支做新增,并对负Gain的分支做删减(详细请参考文章1说明)。换句话说,就是「希望后面生成的树,能够修正前面一棵树犯错的地方」。
    0 s1 ~( h$ o8 D' V' z; a, ]' S$ N
    Random Forest 和XGBoost 差异如下图例:
    ' w3 e, S  X9 @- MRandom Forest是由多个决策树所组成,但最终分类结果并未经过加权平均;而XGBoost是由连续的决策树所建构,从错误的分类中学习,并在后续的决策树中增加更高的权重。
    ! T, m  G6 |. [; w, L" [: \1 z
    . d$ O. I4 Y3 B! Q9 wRandom Forest and XGBoost Difference (Reference: 參考文章3)
    ' u. A& t. B2 Y# }
    & @* g! P9 ^5 P' AXGBoost的优点:
    ; x, e2 m* U9 W+ E◆ 在损失函数中加入正则项,控制模型的复杂度,防止过拟合现象
    8 W: ^- T; Z  t8 s6 e' K2 {6 [3 h/ }9 w◆ 在每次迭代后,会将叶子节点的权重乘上该系数,来削弱每棵树的影响
    / z9 L; z; T* V6 {1 \" e
    3 K4 p$ n* Y/ O1 R6 t3 gXGBoost的缺点: **
    ! |: c- h) `3 \; _**◆ 空间复杂度过高,需要储存特征值和特征对应样本的梯度统计值
    . U2 d3 ~  c. O+ H8 N9 [————————————————2 h. W1 I+ F/ P+ w  z8 t
    版权声明:本文为CSDN博主「wuxiaopengnihao1」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    ( K# H) d& F6 R  i- O原文链接:https://blog.csdn.net/wuxiaopengnihao1/article/details/126686410
    0 ^# t( E+ D" q) |/ t. B* V) ^
    3 u$ \3 Z" r! W9 @* [4 O# p* S# _
    # m- f; W6 p+ i3 N5 F+ P* ^9 ?7 m
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-14 21:50 , Processed in 0.385495 second(s), 51 queries .

    回顶部