QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2732|回复: 0
打印 上一主题 下一主题

[其他资源] Python机器学习-多元分类的5种模型

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-5 16:26 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    # y" f6 v3 x4 a  I4 M, C6 a6 r( IPython机器学习-多元分类的5种模型
    ! M' W2 m+ \" D, _8 F' v) o: Q# N6 s0 U  O0 }+ a  C, e
    最近上了些机器学习的课程,于是想透过Kaggle资料集来练习整个资料科学专案的流程,在模型训练阶段,虽然听过许多分类模型,但不是很了解其各别的优缺点与适合的使用时机,所以想来整理一篇文章,统整上课学习与网路资料,作为后续专案的优化方向!" j5 ]! {# i2 p
    $ p6 j4 P/ d3 R1 f; f, N- a
    首先,机器学习主要分为「监督式学习」与「非监督式学习」,两者的差异在于资料是否有「标签」。
    ! g4 n& S) @& \" b- l' i# c
    ; Q; d/ H+ W0 H: z# |5 Y+ A监督式学习(Supervised Learning):给予「有标签」的资料,举例来说:给机器一堆苹果和橘子的照片,并说明哪些是苹果、哪些是橘子,再拿一张新的照片询问机器这是苹果还是橘子,而监督式学习又可分为回归(Regression)和分类(Classification)。
    7 {. o# S( A" [: ]8 E
    - _1 ^7 I& C; a$ n非监督式学习(Unsupervised Learning):给予「无标签」的资料,让机器找出潜在的规则,举例来说:给予机器一堆苹果和橘子的照片,但没有告诉机器这些照片各别是哪种水果,让机器自行找到资料间的相似性,而非监督式学习又可分为分群(Clustering)和降维(Dimension Reduction)。
    ( B* _: s) N4 I! C' B- y2 s$ ^! _0 D  p6 b. Q
    这篇文章会以监督式学习中的分类模型为主。& T$ o7 T7 Z1 n% A; k% Q  E

      K8 u9 [* F4 z0 M; L$ {+ V一、逻辑回归(Logistic Regression)* t2 }+ E# V1 A2 l! M7 L: }  m& B
    逻辑回归是个二元分类(Binary Classification)的模型,并有其对应的机率值,举例:明天会下雨的机率有90%。
    $ P7 c' i) ^3 ^7 n' [
    $ J9 G# W: Q" W- M6 K  g# `基本概念是利用线性回归线(Linear Regression Line),将资料分为A/B两类,再透过Sigmoid Function (or Logistic Function) 输出A类别的机率值(0~1),若机率>0.5则判断为A类别,因为是二元分类,所以当机率<0.5则被归类为B类别。
    - E4 u; @' y- `# g- P4 }# l% F
    9 u5 e3 Z$ S4 s$ ?1 c6 U2 d& N若需处理多元分类问题,有两种方法:
    ; |+ g, S" M0 Y$ t. F1. One versus Rest (or One versus All):将每个分类与其他剩余的资料做比较,若有N个类别,就需要N个二元分类器。以下方图例来说明,若有类别1~3,每次各使用一个类别与剩余的两个类别作二元分类后,会得到三个分类器,预测时把资料放到三个分类器中,看哪个分类器的分数较高,就判断为该类别。! Y! ]: g; W! I8 T3 }& K3 Y

    2 {  u, G7 S/ G1 k( M; r) QOne versus Rest Example (Source from Internet), J8 j& Q8 @; g# n/ |. m% [/ }) Y8 Z

    ; y. [$ q, k) M' s2. One versus One:每次选择两个类别做分类,若有N个类别,就会有N*(N-1)/2个分类器,将每次分类的结果做投票,最后判断为票数最高的那个类别。举下方图例来说,有三个类别,会有三组分类器,最后新资料会判断为票数较高的类别1。% C% n8 i7 w& U% v! K5 m- v/ r# A
    9 Z% u0 R5 S7 s7 K, {, a  E" a
    One versus One Example (Source from Internet), e" N% v8 z9 |+ p4 K# A

    ( a* b; b0 v# G( ^) w# i- v5 LLogistic Regression的优点:% y0 n0 z- S5 F6 Y. s0 l* l
    ◆ 资料线性可分(包含在高维度空间找到linear plane)) F4 _; h, }& L0 t
    ◆ 除了分类,也可以得到A/B两类的机率
    ; T* Z2 C9 X6 |# r) }% a◆ 执行速度较快! r, p; v% o! j* f) E
    # H8 j$ c0 V) U: |. f
    Logistic Regression的缺点:* E  H7 U7 }0 m7 o' g
    ◆ 线性回归线的切法可能不够漂亮" v3 U5 l) S! @( x! _' Y" Z
    ◆ 不能很好地处理大量、多类特征
    0 s! Q- @% o8 v  p) K7 y$ W
    % r+ H8 ]* L6 s) x: z% A二、 支持向量机( 支持向量机,SVM)
    6 q! i) ~1 i' e" k: K" ~! X# F支持向量机(Support Vector Machine)是在寻找一个超平面(Hyper-plane)来做分类,并使两个类别之间的边界距离最大化(会忽略异常点Outlier)。
    2 G& K; L/ O# l" V1 e5 p. f/ x( U
    2 D/ T1 ?4 ~6 P9 c* J1 b5 ISVM也可使用于非线性分类(如下图B),透过Kernels functions将低维空间转换为高维空间,让资料可以在高维空间被线性分类。想像红色球的重量比蓝色球还重,在平面上一拍,让球往上弹,重量重的红色球会较快落下,在立体空间就可以找出个平面来切分红色和蓝色球。
    1 |& g: B" }- b1 u* B
    + t* O6 I# W/ @) NSupport Vector Machine Example (Source from Internet)
    " s) h8 t8 b0 T9 q' J8 |. Q1 C/ V' l1 K
    SVM的优点:
    % u2 w8 r+ n8 z  ?3 y◆ 切出来的线或平面很漂亮,拥有最大边界距离(margin)6 l( h) j1 H- s; I1 v& ]# O
    ◆ 在高维空间可以使用(即使维度数大于样本数也有效)) c4 }( A& ~& T7 W. p0 d. A1 y  P
    ◆ 在资料量较小、非线性、高维度与局部最小点等情况下有相对的优势2 J6 U" `6 \( v! m7 q

    9 t; M3 y  [) G" U  M6 \: ?SVM的缺点:
    $ p' |% ?) n' Y( `& u$ K  p◆ 当资料太多时,所需的训练时间太长,而使效果不佳) I9 G' u: U3 K  P# B1 L
    ◆ 当资料集有太多noise时(如目标类别有重叠),预测的效果也会不好
    1 d' i5 Y; u$ o! C( u1 m+ ~8 v' c  v◆ SVM不会直接提供机率的估计值
    7 Z; p% X' |1 Y0 M$ M& m6 z. m' e
    三、决策树(Decision Tree)4 h* A6 w  R* g9 n# M$ n
    透过模型预测可以得知某个方程式来做分类,但方程式可能很难懂或很难解释,这时需要决策树(Decision Tree),它的准确性可能没有很精准,但「解释性」高,所以决策树是一种条件式的分类器,以树状结构来处理分类问题。
    " \8 ~- U/ J! r" _2 k( P/ ?3 b  F5 [. L. S  A$ U
    建构决策树的方式,是将整个资料集依据某个特征分为数个子资料集,再从子资料集依据某个特征,分为更小的资料集,直到子资料集都是同一个类别的资料,而该如何分类则是透过资讯熵(Entropy)和资讯增益(Information Gain)来决定。; F5 U8 P/ Q) I0 Y! S  Q

    7 h! G% V% @" x  p2 Z/ j1. 资讯熵(Entropy):用来衡量资料的不纯度,若资料为同一类Entropy=0,若资料「等分」成不同类别Entropy=1。) Y: A9 S# q; W& f+ c
    3 H# |- V* t1 H3 k+ W, N
    2. 资讯增益(Information Gain):用来衡量某个特征对于资料分类的能力,而建构决策树就是要找到具有最高资讯增益的分类法(得到纯度最高的分支)。简单来说,原本的资料集(High Entropy=E1),经过分类,得到多个资料集(Low Entropy=E2),其中的E1-E2=Information Gain。
    . O5 U3 j; ?9 s, }5 B! X& E" u3 h# p* ~9 h
    Decision Tree的优点:/ j1 `8 y! x, F# j. q- T, y3 |
    ◆ 决策树容易理解和解释( e8 h8 i2 a5 X4 ^' S
    ◆ 资料分类不需要太多的计算  h# |2 B: N; Y
    ◆ 可以处理连续值和离散值
    : |4 T/ d; e; N◆ 资料准备相对比较容易
    2 Z! u% U$ ^& N1 l: _(不需要做特征标准化、可以处理合理的缺失值、不受异常值的影响)) ?5 p' U* p4 }6 ]3 _
    ◆ 因为解释性高,能用在决策分析中,找到一个最可能达到目标的策略1 W" Q. V& f/ |- i* c) e
    ; F0 @4 p- `9 A$ `
    Decision Tree的缺点: **
    7 I0 D; B+ X" C$ I7 J5 N  E**◆ 容易过度拟合(Over-fitting)# V, z6 o- W# ?5 b7 R
    ◆ 若类别太多,但资料量太少,效果比较差8 o% @: C1 a# y- H1 Y
    1 ?+ d+ A3 `+ z2 [' G2 j+ e8 E
    四、随机森林(Random Forest)
    : g5 B4 ], B; s% ^: d5 \随机森林,是取部分特征与部分资料产生决策树,每重复此步骤,会再产生一颗决策树,最后再进行多数决投票产生最终结果。3 P/ o/ ~% o& L7 N3 t2 t. M

    , m  Y5 q+ B9 _; ?随机森林可以降低决策树有过拟合的问题,因为最终结果是对所有的决策树结果进行投票,进而消除了单棵决策树的偏差。% ]/ ^  @6 |8 d$ m& a2 P$ v, Y
    9 F( N: k; p& v9 }6 ^, }
    Random Forest Example (Source from Internet)- `1 u" `; |: r: \0 q  l
    # }0 R: B$ m9 r2 N$ [
    Random Forest的优点:7 O, ?( f! F0 [
    ◆ 随机森林的决策树够多,分类器就不会过拟合5 R( n$ y3 W9 H3 }
    ◆ 每棵树会用到的资料和特征是随机决定的
    % u" W, h. X* [◆ 训练或预测时每棵树都能平行化的运行
    . w" h* h1 l3 F! c) k4 `- U/ c" y, m4 o9 ?# C
    Random Forest的缺点: **
    : d. a6 h2 z8 u0 c, P5 R) f- P. `6 Z**◆ 当随机森林中的决策树个数很多时,训练时需要的空间和时间会比较大8 \5 }# D& e* D: r8 u& C1 @

    * v& j1 J" g, B+ R" k  H: e( v五、极限梯度提升(eXtreme Gradient Boosting, XGBoost)3 C, b, T: S9 X3 I' L
    其实会想写这篇文章,是因为在使用Kaggle资料做练习时,发现网站上有需多人使用XGBClassifier做分类预测,因此想进一步了解这个模型。
    ; j; [5 b; b' b* e  K& ?  m* }6 A4 X5 B0 @
    ' P6 }' x& J& G5 W" ]XGBoost的两个主要概念:
    ) ^) n5 @3 e4 J; |6 N/ C7 }: |# n* F, \0 E
    1. 回归树(Classification and Regression Tree, CART)1 p% H6 K) t( F: F* F
    回归树拥有和决策树一样的分支方式,并在各个叶端(Leaf)有一个预测分数(Prediction Score),且回归树是可以做集成的,也就是把资料丢到所有树中,把得到的预测分数加总。
    9 f3 \* f9 `+ M/ r
    9 @- o$ g4 w2 W6 O1 U2. 梯度提升% `- D+ S2 V' L: |. E
    先以常数作为预测,在之后每次预测时新加入一个学习参数,要找出最佳参数,是在每次迭代中,使用贪婪演算法计算Gain,并找出最佳分支做新增,并对负Gain的分支做删减(详细请参考文章1说明)。换句话说,就是「希望后面生成的树,能够修正前面一棵树犯错的地方」。
    3 w$ g7 S0 l+ l& g% @! B* p
    5 a1 D6 D; `) O7 c" \" {$ IRandom Forest 和XGBoost 差异如下图例:" p( U1 x4 ^0 t
    Random Forest是由多个决策树所组成,但最终分类结果并未经过加权平均;而XGBoost是由连续的决策树所建构,从错误的分类中学习,并在后续的决策树中增加更高的权重。
    + J  ~0 N, E4 ^% j; r' Q% F) n
    # P8 b% G$ P& |2 `8 J1 i  c9 V+ H8 kRandom Forest and XGBoost Difference (Reference: 參考文章3), B9 f9 {/ N$ T7 F8 x0 |, A

    6 z' e3 H; x& K$ G* [' {0 P7 CXGBoost的优点:1 F0 @6 f$ K- Q' e8 q+ j
    ◆ 在损失函数中加入正则项,控制模型的复杂度,防止过拟合现象
    + [# S6 T, G5 m" M% G! S◆ 在每次迭代后,会将叶子节点的权重乘上该系数,来削弱每棵树的影响
    ) D' z* ?% F2 \! j$ w
    5 j8 {: w3 v! N3 }) D9 EXGBoost的缺点: **
    5 Z. u3 \9 [1 t9 d; V6 _**◆ 空间复杂度过高,需要储存特征值和特征对应样本的梯度统计值+ w: d! Z7 R7 M9 S3 E
    ————————————————
    * j% ?3 x9 M( J7 U" }版权声明:本文为CSDN博主「wuxiaopengnihao1」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。- \+ H4 u# @  Z0 {. R, I
    原文链接:https://blog.csdn.net/wuxiaopengnihao1/article/details/126686410
    " @3 s' W7 Y5 p, m- P+ g% v' V7 k  l9 l4 z( [
    & {4 X: H) o% ?3 D
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-16 09:40 , Processed in 0.405709 second(s), 51 queries .

    回顶部