数学建模社区-数学中国

标题: Python机器学习-多元分类的5种模型 [打印本页]

作者: 杨利霞    时间: 2022-9-5 16:26
标题: Python机器学习-多元分类的5种模型
1 d$ E- J5 x) e: m  {8 W# X
Python机器学习-多元分类的5种模型3 P; e" r) L1 c6 V9 c. Y: T
# m) R! ^* `& ^
最近上了些机器学习的课程,于是想透过Kaggle资料集来练习整个资料科学专案的流程,在模型训练阶段,虽然听过许多分类模型,但不是很了解其各别的优缺点与适合的使用时机,所以想来整理一篇文章,统整上课学习与网路资料,作为后续专案的优化方向!
6 Z" {; e  p# I1 y
- w1 r: v% z( w* h2 B7 `  r首先,机器学习主要分为「监督式学习」与「非监督式学习」,两者的差异在于资料是否有「标签」。& u$ |' J: y& f* o  l

8 o, F- o1 p: Y$ }6 m7 v; w监督式学习(Supervised Learning):给予「有标签」的资料,举例来说:给机器一堆苹果和橘子的照片,并说明哪些是苹果、哪些是橘子,再拿一张新的照片询问机器这是苹果还是橘子,而监督式学习又可分为回归(Regression)和分类(Classification)。
# y- h: q9 `+ f: n: |8 a' J. A0 w4 U
非监督式学习(Unsupervised Learning):给予「无标签」的资料,让机器找出潜在的规则,举例来说:给予机器一堆苹果和橘子的照片,但没有告诉机器这些照片各别是哪种水果,让机器自行找到资料间的相似性,而非监督式学习又可分为分群(Clustering)和降维(Dimension Reduction)。' y6 `' O" R$ K* \, b# Z
/ l0 F4 k) r2 L# Q
这篇文章会以监督式学习中的分类模型为主。8 R1 q& |# D# ?% F& D
* D6 e. N" o. d; Q5 ^
一、逻辑回归(Logistic Regression)  D9 a( t, O4 T: D8 {# q
逻辑回归是个二元分类(Binary Classification)的模型,并有其对应的机率值,举例:明天会下雨的机率有90%。1 W5 }4 ]2 N  M7 u: x7 v; D. e; P5 i

* ~2 k. z) x! p, [" v) {) ^1 M基本概念是利用线性回归线(Linear Regression Line),将资料分为A/B两类,再透过Sigmoid Function (or Logistic Function) 输出A类别的机率值(0~1),若机率>0.5则判断为A类别,因为是二元分类,所以当机率<0.5则被归类为B类别。" a9 a9 }7 k0 r" W8 \2 Y
  z. p: e( x0 h: Q7 P
若需处理多元分类问题,有两种方法:  e; B" B$ U: F$ I. N
1. One versus Rest (or One versus All):将每个分类与其他剩余的资料做比较,若有N个类别,就需要N个二元分类器。以下方图例来说明,若有类别1~3,每次各使用一个类别与剩余的两个类别作二元分类后,会得到三个分类器,预测时把资料放到三个分类器中,看哪个分类器的分数较高,就判断为该类别。5 z# a8 c% s' F2 o3 n. b: A) }
& |' N" H0 g3 m2 X8 x
One versus Rest Example (Source from Internet)
. Y- D( r. V* @( t5 ~2 v" h) t
5 M% k5 u7 I& S, z  K9 N, S$ e2. One versus One:每次选择两个类别做分类,若有N个类别,就会有N*(N-1)/2个分类器,将每次分类的结果做投票,最后判断为票数最高的那个类别。举下方图例来说,有三个类别,会有三组分类器,最后新资料会判断为票数较高的类别1。- q2 \  y+ J9 B' Q
8 g- F9 o: Q! |3 ]% V4 ~1 t
One versus One Example (Source from Internet)
# r8 k7 [' h6 L! I( j0 l- N8 A6 G5 U: N7 s3 A, a" s+ T
Logistic Regression的优点:5 {8 [! l/ c9 j) P/ c3 H* D4 r
◆ 资料线性可分(包含在高维度空间找到linear plane)
6 M9 t' I7 p) o2 A+ b◆ 除了分类,也可以得到A/B两类的机率
# `( a! o7 @( j( H; c# {1 k◆ 执行速度较快& O1 U) g$ r) F
$ r. I1 l" W9 }  V8 B3 X. N  L0 g
Logistic Regression的缺点:" T0 [& G# x1 j% m; @+ t; \% h9 A
◆ 线性回归线的切法可能不够漂亮
( Z2 B: }0 Z# {: |◆ 不能很好地处理大量、多类特征
) [0 ~$ I) ~* ^2 s' p' U' V! |* R! v: M3 o+ w  z( V
二、 支持向量机( 支持向量机,SVM)( P+ l8 ^' J; _2 v
支持向量机(Support Vector Machine)是在寻找一个超平面(Hyper-plane)来做分类,并使两个类别之间的边界距离最大化(会忽略异常点Outlier)。  E8 T4 X4 m6 N  n

7 [! K9 ?: ]/ z$ s6 KSVM也可使用于非线性分类(如下图B),透过Kernels functions将低维空间转换为高维空间,让资料可以在高维空间被线性分类。想像红色球的重量比蓝色球还重,在平面上一拍,让球往上弹,重量重的红色球会较快落下,在立体空间就可以找出个平面来切分红色和蓝色球。
& G+ P; p7 S1 T$ C
1 T1 f4 T3 ~; wSupport Vector Machine Example (Source from Internet)2 f  O4 a# V7 Q3 m) q' x
: E( m6 t! r3 _" [9 K* b* x
SVM的优点:
  Y! I- g; @0 ?6 {; |◆ 切出来的线或平面很漂亮,拥有最大边界距离(margin)! G" f7 \6 I3 d' @4 N
◆ 在高维空间可以使用(即使维度数大于样本数也有效)
8 K: N* T# K, d; i◆ 在资料量较小、非线性、高维度与局部最小点等情况下有相对的优势
6 E4 q) X$ c# ^% a
! h8 v* Y( p& [1 H% h7 ]8 b: n7 OSVM的缺点:
9 Z+ K* T9 h4 y◆ 当资料太多时,所需的训练时间太长,而使效果不佳! s$ l( V& u8 N9 R# `) A
◆ 当资料集有太多noise时(如目标类别有重叠),预测的效果也会不好
$ n9 I3 V8 v' v: Z/ [◆ SVM不会直接提供机率的估计值
" n6 o  L/ ~$ \# Q" ^
6 q' K& F2 o" G, L  g8 U三、决策树(Decision Tree)$ L' f6 F& D# v1 X& d  T& c  A
透过模型预测可以得知某个方程式来做分类,但方程式可能很难懂或很难解释,这时需要决策树(Decision Tree),它的准确性可能没有很精准,但「解释性」高,所以决策树是一种条件式的分类器,以树状结构来处理分类问题。0 O" B- ]! G" e9 g: D

& E5 l: ]0 G* g% m' o建构决策树的方式,是将整个资料集依据某个特征分为数个子资料集,再从子资料集依据某个特征,分为更小的资料集,直到子资料集都是同一个类别的资料,而该如何分类则是透过资讯熵(Entropy)和资讯增益(Information Gain)来决定。, X( w- I5 P0 g( A3 M6 l3 M
3 M& n3 [( R2 g$ [5 E1 |, @
1. 资讯熵(Entropy):用来衡量资料的不纯度,若资料为同一类Entropy=0,若资料「等分」成不同类别Entropy=1。
0 A/ Z( x9 E- N6 H3 a; S& o$ P/ v9 F5 A9 b" N' v! c: ?. d
2. 资讯增益(Information Gain):用来衡量某个特征对于资料分类的能力,而建构决策树就是要找到具有最高资讯增益的分类法(得到纯度最高的分支)。简单来说,原本的资料集(High Entropy=E1),经过分类,得到多个资料集(Low Entropy=E2),其中的E1-E2=Information Gain。* e$ z- o  {) b
; s; I; k5 y+ ]( D
Decision Tree的优点:
! S; v/ I; o( ]& Q$ h% T◆ 决策树容易理解和解释
+ Y  {" ?& w& {4 F: x" n# a◆ 资料分类不需要太多的计算7 v& W# q5 l- S; _' [
◆ 可以处理连续值和离散值8 y4 A2 \5 D4 H  r2 Q
◆ 资料准备相对比较容易
: b$ N; \' h' ^3 m" |(不需要做特征标准化、可以处理合理的缺失值、不受异常值的影响)
2 Y' ~6 E$ Y4 ~◆ 因为解释性高,能用在决策分析中,找到一个最可能达到目标的策略
9 X8 Y6 k) }, K1 Z; ~
* w# Y4 x  q$ C, CDecision Tree的缺点: **
4 |0 v% ?& o; q3 t; J0 t; f: z**◆ 容易过度拟合(Over-fitting)# R9 G* t0 c  @; F: m) }/ w0 c# I
◆ 若类别太多,但资料量太少,效果比较差# E3 R" F. A# \* c

9 t6 C, E& {! q  f四、随机森林(Random Forest)! r6 E+ e+ \+ i4 F% P/ N
随机森林,是取部分特征与部分资料产生决策树,每重复此步骤,会再产生一颗决策树,最后再进行多数决投票产生最终结果。
! `! D5 V7 F( ^2 H$ @( E2 I8 c2 l$ Z
- w. G8 O7 ]) e! D& g随机森林可以降低决策树有过拟合的问题,因为最终结果是对所有的决策树结果进行投票,进而消除了单棵决策树的偏差。* n& u5 ^$ ]' _7 q; i. w

6 c/ n3 L3 J; }8 S$ n. @% ?Random Forest Example (Source from Internet)
. j2 b- [/ m& s
% j! T5 ], f" _5 V; fRandom Forest的优点:* C0 Q: D' c( K) ]: p! b5 ?4 c
◆ 随机森林的决策树够多,分类器就不会过拟合
+ g8 g: i- m7 f' u◆ 每棵树会用到的资料和特征是随机决定的
9 L) G3 _) T* D3 c4 G5 |◆ 训练或预测时每棵树都能平行化的运行
. ~3 z. F6 m" ?) q
5 r& M. b6 c5 d0 x" A* W/ @Random Forest的缺点: **
$ y- v# [1 G7 _$ M( J**◆ 当随机森林中的决策树个数很多时,训练时需要的空间和时间会比较大
) e9 Z% T6 O# P* L
/ X% [6 r- Q- X* z4 U6 H' X五、极限梯度提升(eXtreme Gradient Boosting, XGBoost)3 q$ ~7 X! x4 ^9 m+ ?
其实会想写这篇文章,是因为在使用Kaggle资料做练习时,发现网站上有需多人使用XGBClassifier做分类预测,因此想进一步了解这个模型。* v. c+ a/ s; M

0 T8 Q8 Z4 j% j+ B: ]3 v: I! `XGBoost的两个主要概念:
& y5 z7 \% d: m+ ^, S  a6 ]
* s+ ~2 Y% Z8 \6 H* o; ^1. 回归树(Classification and Regression Tree, CART)
8 ^: @4 X7 T' H% R% d3 c1 J& ?回归树拥有和决策树一样的分支方式,并在各个叶端(Leaf)有一个预测分数(Prediction Score),且回归树是可以做集成的,也就是把资料丢到所有树中,把得到的预测分数加总。
0 C3 n& ^; @1 F! z; ?1 j/ X9 W/ ~3 d0 W4 Q1 T: `4 V7 D
2. 梯度提升
  ~8 ?/ F' O9 {0 M) N' L$ u0 @2 X先以常数作为预测,在之后每次预测时新加入一个学习参数,要找出最佳参数,是在每次迭代中,使用贪婪演算法计算Gain,并找出最佳分支做新增,并对负Gain的分支做删减(详细请参考文章1说明)。换句话说,就是「希望后面生成的树,能够修正前面一棵树犯错的地方」。6 d9 O; U6 o: B( y
; V( {" A1 f$ H. {: @2 c
Random Forest 和XGBoost 差异如下图例:; {" j4 V6 `( f- Z; N" s. E: W
Random Forest是由多个决策树所组成,但最终分类结果并未经过加权平均;而XGBoost是由连续的决策树所建构,从错误的分类中学习,并在后续的决策树中增加更高的权重。7 P$ q1 E: e2 ]0 i& E# R1 m* G: v
- a! \3 W. K( U/ \1 @
Random Forest and XGBoost Difference (Reference: 參考文章3)7 L( P/ x5 w; \9 f6 z
  Z8 D  Y( D6 k( j
XGBoost的优点:7 F0 I1 w) a  t) c% I7 t
◆ 在损失函数中加入正则项,控制模型的复杂度,防止过拟合现象
; R  _" Y" L/ p! q# j2 t◆ 在每次迭代后,会将叶子节点的权重乘上该系数,来削弱每棵树的影响
7 V$ N4 Q- J) W, J* z( _3 r/ {
* ]+ j* h* a; }" RXGBoost的缺点: **- N/ Q) A/ C5 o+ R2 O3 A
**◆ 空间复杂度过高,需要储存特征值和特征对应样本的梯度统计值2 g9 ]( s6 K. Y  q/ [
————————————————
' o( y( E# N; L% u版权声明:本文为CSDN博主「wuxiaopengnihao1」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。+ E" S7 l) P4 g5 l
原文链接:https://blog.csdn.net/wuxiaopengnihao1/article/details/126686410; F* R# |5 k. L- i/ ~

4 C" l7 @% B$ C/ b1 V, n2 N+ ^2 _





欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5