数学建模社区-数学中国

标题: Python机器学习-多元分类的5种模型 [打印本页]

作者: 杨利霞    时间: 2022-9-5 16:26
标题: Python机器学习-多元分类的5种模型
8 g8 F# W& `$ K5 e# Q1 ^
Python机器学习-多元分类的5种模型
6 b/ ^, N7 n. P7 K0 F5 E  s# S
. ~0 }1 q' v8 ?9 q最近上了些机器学习的课程,于是想透过Kaggle资料集来练习整个资料科学专案的流程,在模型训练阶段,虽然听过许多分类模型,但不是很了解其各别的优缺点与适合的使用时机,所以想来整理一篇文章,统整上课学习与网路资料,作为后续专案的优化方向!) h$ }5 ?* \9 ]- O/ d

. `& z  s" U2 l首先,机器学习主要分为「监督式学习」与「非监督式学习」,两者的差异在于资料是否有「标签」。
( R4 M/ {3 \8 H8 c% N% ~- R! p% X, ?/ n0 b. `/ u; ]+ a
监督式学习(Supervised Learning):给予「有标签」的资料,举例来说:给机器一堆苹果和橘子的照片,并说明哪些是苹果、哪些是橘子,再拿一张新的照片询问机器这是苹果还是橘子,而监督式学习又可分为回归(Regression)和分类(Classification)。
" v8 y& s& W" K3 n. Z; M( F% z2 l; F% h, ]
非监督式学习(Unsupervised Learning):给予「无标签」的资料,让机器找出潜在的规则,举例来说:给予机器一堆苹果和橘子的照片,但没有告诉机器这些照片各别是哪种水果,让机器自行找到资料间的相似性,而非监督式学习又可分为分群(Clustering)和降维(Dimension Reduction)。
" o0 b" b0 e; L  g% a. P, V4 K4 {  e4 O: ~  L0 r) p: V9 }
这篇文章会以监督式学习中的分类模型为主。
- f9 b9 R( W3 ?+ N) X5 O- `2 L5 L* E( R7 T0 l& N& R& `$ J
一、逻辑回归(Logistic Regression)
7 Y' T( @* F) p5 \6 O0 U8 |% [逻辑回归是个二元分类(Binary Classification)的模型,并有其对应的机率值,举例:明天会下雨的机率有90%。
3 ?8 w9 x: m+ X! ~+ b$ X( ]6 \0 }3 }' ]" W8 N' Z' d- `, Z
基本概念是利用线性回归线(Linear Regression Line),将资料分为A/B两类,再透过Sigmoid Function (or Logistic Function) 输出A类别的机率值(0~1),若机率>0.5则判断为A类别,因为是二元分类,所以当机率<0.5则被归类为B类别。7 E2 M7 H) k/ h2 ?$ V- c2 @
- L! @6 x- J; x
若需处理多元分类问题,有两种方法:
0 a' i5 E7 `7 u- m( d% x1. One versus Rest (or One versus All):将每个分类与其他剩余的资料做比较,若有N个类别,就需要N个二元分类器。以下方图例来说明,若有类别1~3,每次各使用一个类别与剩余的两个类别作二元分类后,会得到三个分类器,预测时把资料放到三个分类器中,看哪个分类器的分数较高,就判断为该类别。/ f2 Z# q$ P, f
  l2 X) V, |( b
One versus Rest Example (Source from Internet)
8 w: S+ z- e/ {( |9 R& A' _) H+ X; {# V; o+ S
2. One versus One:每次选择两个类别做分类,若有N个类别,就会有N*(N-1)/2个分类器,将每次分类的结果做投票,最后判断为票数最高的那个类别。举下方图例来说,有三个类别,会有三组分类器,最后新资料会判断为票数较高的类别1。
4 o4 ?' I/ l  l3 l2 Y6 Y# x$ d! S: {+ M1 b. i
One versus One Example (Source from Internet)
0 V0 U+ L" |& ]
1 S2 J( |* d+ L  u3 H& ELogistic Regression的优点:
0 E. [  l( u% I3 w+ h◆ 资料线性可分(包含在高维度空间找到linear plane)
& ?* L: W$ x5 Z& P2 k◆ 除了分类,也可以得到A/B两类的机率) Y$ t7 M! e$ U0 P
◆ 执行速度较快5 U$ w; D. X" l  Y$ c( E

7 e3 f# H6 F' V% OLogistic Regression的缺点:/ z/ y3 w6 a' \0 L; D
◆ 线性回归线的切法可能不够漂亮7 w$ l* w" M0 a% N, f7 U/ q/ O9 s
◆ 不能很好地处理大量、多类特征3 w+ A  R% q7 Q% F. d+ a

( h9 w% r$ ?0 D- i1 n# H' O二、 支持向量机( 支持向量机,SVM)
, \* G# O  o& {% U) f支持向量机(Support Vector Machine)是在寻找一个超平面(Hyper-plane)来做分类,并使两个类别之间的边界距离最大化(会忽略异常点Outlier)。5 @) `1 R1 U5 Z4 r& Q4 ^5 `. R
) `8 e! z. c8 A. o0 d! b
SVM也可使用于非线性分类(如下图B),透过Kernels functions将低维空间转换为高维空间,让资料可以在高维空间被线性分类。想像红色球的重量比蓝色球还重,在平面上一拍,让球往上弹,重量重的红色球会较快落下,在立体空间就可以找出个平面来切分红色和蓝色球。. _, v7 X% H2 L) P: x

* M& t% y8 |/ c7 S2 xSupport Vector Machine Example (Source from Internet)
3 [) {" s; g3 }- ^  D7 @( F' ~4 S
SVM的优点:. ~% Q/ _/ m8 J5 B" m
◆ 切出来的线或平面很漂亮,拥有最大边界距离(margin)
/ a4 x& F0 q7 v" C◆ 在高维空间可以使用(即使维度数大于样本数也有效)
7 s- v2 n0 m7 m6 ?+ x◆ 在资料量较小、非线性、高维度与局部最小点等情况下有相对的优势
  d. R7 \7 |3 T; b$ ?" y& j0 ^
! j7 Y! g2 o' U! m6 L) ?SVM的缺点:
% h6 v5 C. _5 R, m% ]◆ 当资料太多时,所需的训练时间太长,而使效果不佳/ e9 m  X$ x  ~" S
◆ 当资料集有太多noise时(如目标类别有重叠),预测的效果也会不好/ n: x) N& x1 T1 Q
◆ SVM不会直接提供机率的估计值3 O" a) Y2 T: C% w/ I5 D4 B
2 f) @# H) H( `7 P; _
三、决策树(Decision Tree)2 @7 O6 P* B; j3 ?8 n( k) o' S& U
透过模型预测可以得知某个方程式来做分类,但方程式可能很难懂或很难解释,这时需要决策树(Decision Tree),它的准确性可能没有很精准,但「解释性」高,所以决策树是一种条件式的分类器,以树状结构来处理分类问题。; ?2 d1 ^6 D9 Z1 Q6 o4 X

4 t+ P' D$ b$ ?- a+ [8 \建构决策树的方式,是将整个资料集依据某个特征分为数个子资料集,再从子资料集依据某个特征,分为更小的资料集,直到子资料集都是同一个类别的资料,而该如何分类则是透过资讯熵(Entropy)和资讯增益(Information Gain)来决定。
. Y0 E, _0 H) A$ s2 P! w" L9 p
0 }6 X% A* ]7 v1 ]  g( I( X1. 资讯熵(Entropy):用来衡量资料的不纯度,若资料为同一类Entropy=0,若资料「等分」成不同类别Entropy=1。, C; v* O9 ]1 _! z3 V/ E/ x

' Z9 F: y+ e6 s$ G, j' ^2. 资讯增益(Information Gain):用来衡量某个特征对于资料分类的能力,而建构决策树就是要找到具有最高资讯增益的分类法(得到纯度最高的分支)。简单来说,原本的资料集(High Entropy=E1),经过分类,得到多个资料集(Low Entropy=E2),其中的E1-E2=Information Gain。
& q  V7 I( T+ j, {
' s" p' f8 s0 ^9 f4 t4 \Decision Tree的优点:
+ [- W3 k1 Z9 s2 ~+ x5 X9 l8 t; q! I2 _◆ 决策树容易理解和解释. Z4 w2 ~9 j2 L/ S/ {
◆ 资料分类不需要太多的计算2 m4 X# M# y; ~) \
◆ 可以处理连续值和离散值  ?4 Y/ G6 R$ W: b
◆ 资料准备相对比较容易9 \  v, A( n( S8 m+ t0 D
(不需要做特征标准化、可以处理合理的缺失值、不受异常值的影响)* {; k4 r1 S3 w7 h3 Y, ?( h, d8 _
◆ 因为解释性高,能用在决策分析中,找到一个最可能达到目标的策略
. B$ v- a- D, |% K( t- |$ m( M$ n0 e% c7 e" |
Decision Tree的缺点: **
" j5 m5 ?$ ?  ~8 {6 O6 h, q**◆ 容易过度拟合(Over-fitting)
. o% Z3 U, \& _, j* R◆ 若类别太多,但资料量太少,效果比较差+ J  n' V+ J1 E9 |+ V1 r

$ j% h- v. b3 S  u1 G! l1 T四、随机森林(Random Forest)& I* ~# M0 e. C9 q& _) F
随机森林,是取部分特征与部分资料产生决策树,每重复此步骤,会再产生一颗决策树,最后再进行多数决投票产生最终结果。5 Y4 t) }) d) u3 U* q5 U
% t6 X3 K. O$ M3 l
随机森林可以降低决策树有过拟合的问题,因为最终结果是对所有的决策树结果进行投票,进而消除了单棵决策树的偏差。* r- Y' h9 k1 h  B

% r! |  @1 _% J2 W3 |, rRandom Forest Example (Source from Internet)- |6 r9 o7 X# C0 _" a3 x

' |4 m' s  `, o+ M8 wRandom Forest的优点:  G  N% k& I8 I, `8 R9 d) f; l
◆ 随机森林的决策树够多,分类器就不会过拟合8 p% x: U& c: L
◆ 每棵树会用到的资料和特征是随机决定的
% w* E0 R) t1 ?" ^* e8 u* {◆ 训练或预测时每棵树都能平行化的运行1 C2 Q: ]+ i/ h0 g5 j6 Q

" y  z; Y6 |2 S$ }4 yRandom Forest的缺点: **
. c+ |2 ]4 F$ m, N! U! Z: \+ c. E) _9 m**◆ 当随机森林中的决策树个数很多时,训练时需要的空间和时间会比较大" d1 K  s% |( X

! F' R# h: L2 o% P4 G4 E# {0 c五、极限梯度提升(eXtreme Gradient Boosting, XGBoost)6 r3 j5 Q7 O, n) o" J1 W( g4 g
其实会想写这篇文章,是因为在使用Kaggle资料做练习时,发现网站上有需多人使用XGBClassifier做分类预测,因此想进一步了解这个模型。
4 [! x! q3 f. }* K3 `- {! [  f0 ~& e+ N; K# ?( V  M) f; M; i- ^6 t* Q  q/ V
XGBoost的两个主要概念:3 q" W/ z! B9 q5 `

2 q& E+ t1 x9 w1. 回归树(Classification and Regression Tree, CART)# A( F6 G+ F/ j8 B6 E5 Y; @7 B" V" d
回归树拥有和决策树一样的分支方式,并在各个叶端(Leaf)有一个预测分数(Prediction Score),且回归树是可以做集成的,也就是把资料丢到所有树中,把得到的预测分数加总。9 j5 l. l* }/ O/ ^/ W; g# a

) d4 @5 K) x0 ]2. 梯度提升0 G% t$ \, A3 A  m( U) C2 _, J
先以常数作为预测,在之后每次预测时新加入一个学习参数,要找出最佳参数,是在每次迭代中,使用贪婪演算法计算Gain,并找出最佳分支做新增,并对负Gain的分支做删减(详细请参考文章1说明)。换句话说,就是「希望后面生成的树,能够修正前面一棵树犯错的地方」。
' i+ k5 P: g" n, r) T/ e! \
/ F5 [5 @7 b' y! ^Random Forest 和XGBoost 差异如下图例:
& h* k4 z8 f: K$ T! eRandom Forest是由多个决策树所组成,但最终分类结果并未经过加权平均;而XGBoost是由连续的决策树所建构,从错误的分类中学习,并在后续的决策树中增加更高的权重。' a! I6 s- o1 V! U

9 t* _& v: r) K$ p7 XRandom Forest and XGBoost Difference (Reference: 參考文章3)
7 n0 U6 ~% T+ `" N  x2 d4 T* N2 T* S; s
XGBoost的优点:
1 }# Y: I7 j- {. V◆ 在损失函数中加入正则项,控制模型的复杂度,防止过拟合现象  f/ Q# U* ?! e! |; K
◆ 在每次迭代后,会将叶子节点的权重乘上该系数,来削弱每棵树的影响
" A& d' k& \9 w0 ?8 t0 {  K) v! ~& t/ Q) x) Z
XGBoost的缺点: **
9 h2 H: Q* j9 W4 `& U**◆ 空间复杂度过高,需要储存特征值和特征对应样本的梯度统计值" H; B2 b/ d: B4 J
————————————————
! i9 v* r. M. j8 |! V版权声明:本文为CSDN博主「wuxiaopengnihao1」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。$ A. C- b4 R* a7 c4 n
原文链接:https://blog.csdn.net/wuxiaopengnihao1/article/details/126686410. ~- C* a) m- |& C) m) ]  F4 o
! s1 X# q( b+ F9 i

) a( ^6 C! c4 V+ t- d" f




欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5