) H5 D( @5 }. T. P {) T ]9 v基本概念是利用线性回归线(Linear Regression Line),将资料分为A/B两类,再透过Sigmoid Function (or Logistic Function) 输出A类别的机率值(0~1),若机率>0.5则判断为A类别,因为是二元分类,所以当机率<0.5则被归类为B类别。+ @. _1 N' C: X8 o) ^% ]' u* M6 H
6 @: x% O; K4 j5 e) t
若需处理多元分类问题,有两种方法:7 b# W; z) ?2 j2 `6 v$ y
1. One versus Rest (or One versus All):将每个分类与其他剩余的资料做比较,若有N个类别,就需要N个二元分类器。以下方图例来说明,若有类别1~3,每次各使用一个类别与剩余的两个类别作二元分类后,会得到三个分类器,预测时把资料放到三个分类器中,看哪个分类器的分数较高,就判断为该类别。* q/ F' b( H* L$ F: n
, v9 z2 j$ m5 u& ^# j7 H: w: qOne versus Rest Example (Source from Internet)- f1 X0 P- D% A
( w* x9 C+ V8 ^
2. One versus One:每次选择两个类别做分类,若有N个类别,就会有N*(N-1)/2个分类器,将每次分类的结果做投票,最后判断为票数最高的那个类别。举下方图例来说,有三个类别,会有三组分类器,最后新资料会判断为票数较高的类别1。# z) D9 i! Y2 O. Q
( I& T$ u$ z, A3 v" O( V1 \
One versus One Example (Source from Internet)& U1 V# m7 P( C* ~
3 r7 l8 F* H9 U/ X2 @- Z6 CLogistic Regression的优点:. @7 N. X' m' M6 B
◆ 资料线性可分(包含在高维度空间找到linear plane) # y7 e m% z" k& x1 o◆ 除了分类,也可以得到A/B两类的机率* g9 C( j l! p3 l% u. s
◆ 执行速度较快 3 |2 Q. P2 V8 f1 S4 c 3 _: j- C X0 j7 hLogistic Regression的缺点: $ |. d, _3 v& n) _◆ 线性回归线的切法可能不够漂亮) l; V& R5 c6 z. V# U
◆ 不能很好地处理大量、多类特征 F- s9 c1 V& M3 p% Z, \ , o. A$ e- |8 f G1 y( b" v+ x二、 支持向量机( 支持向量机,SVM)9 V+ j: }( i& r4 p, t6 @
支持向量机(Support Vector Machine)是在寻找一个超平面(Hyper-plane)来做分类,并使两个类别之间的边界距离最大化(会忽略异常点Outlier)。 w9 L; x, _9 T, N. v" t
( H) K1 P8 R$ ]5 s( t0 d2 tSVM也可使用于非线性分类(如下图B),透过Kernels functions将低维空间转换为高维空间,让资料可以在高维空间被线性分类。想像红色球的重量比蓝色球还重,在平面上一拍,让球往上弹,重量重的红色球会较快落下,在立体空间就可以找出个平面来切分红色和蓝色球。6 }+ O. Y4 T3 w+ F
$ |9 c; @+ G( f
Support Vector Machine Example (Source from Internet); f! F6 R5 s8 W: a$ A0 h8 v
- j0 I0 u5 h% P9 z0 m4 FSVM的优点: 9 n2 [5 I/ u2 U. N◆ 切出来的线或平面很漂亮,拥有最大边界距离(margin) ! Q* R& ~- V1 y" @$ c: F$ K& K* R◆ 在高维空间可以使用(即使维度数大于样本数也有效) 9 t6 J6 v+ i; }2 s◆ 在资料量较小、非线性、高维度与局部最小点等情况下有相对的优势 ( ]3 G" {3 l1 l; n/ X7 W( ]+ `1 W7 } + M y4 |& O1 W# ~SVM的缺点:8 _: E" V8 S+ P% D8 s0 [3 Y8 i
◆ 当资料太多时,所需的训练时间太长,而使效果不佳 " Z% u$ C- Q5 B6 v) a; F4 w◆ 当资料集有太多noise时(如目标类别有重叠),预测的效果也会不好8 }3 O* k _* D3 e3 p4 s
◆ SVM不会直接提供机率的估计值 0 K' @; m) d& w0 W, |8 q( l0 k 9 C" r. i r* s& `/ u, ]4 Q三、决策树(Decision Tree)4 q/ o8 [$ `* ?# B
透过模型预测可以得知某个方程式来做分类,但方程式可能很难懂或很难解释,这时需要决策树(Decision Tree),它的准确性可能没有很精准,但「解释性」高,所以决策树是一种条件式的分类器,以树状结构来处理分类问题。 & D* \6 t/ c$ C: c3 i# g0 N, Y/ P L
建构决策树的方式,是将整个资料集依据某个特征分为数个子资料集,再从子资料集依据某个特征,分为更小的资料集,直到子资料集都是同一个类别的资料,而该如何分类则是透过资讯熵(Entropy)和资讯增益(Information Gain)来决定。 2 ~5 k# |7 @4 N8 c) d. @. \2 F I0 t s
1. 资讯熵(Entropy):用来衡量资料的不纯度,若资料为同一类Entropy=0,若资料「等分」成不同类别Entropy=1。 : V8 t, h1 B2 {4 M3 |3 _; L1 Z' _3 m/ R1 @- h0 _ M, a
2. 资讯增益(Information Gain):用来衡量某个特征对于资料分类的能力,而建构决策树就是要找到具有最高资讯增益的分类法(得到纯度最高的分支)。简单来说,原本的资料集(High Entropy=E1),经过分类,得到多个资料集(Low Entropy=E2),其中的E1-E2=Information Gain。" r6 F3 K9 g3 R3 E, V2 c& J5 H
2 x, ~+ r1 D& F/ E; V4 @, {
Decision Tree的优点: ! P! z5 ^4 ?+ P◆ 决策树容易理解和解释 # e3 J; |+ c# W# T2 d◆ 资料分类不需要太多的计算5 [% h/ v' s8 t \
◆ 可以处理连续值和离散值 4 k% v2 K% T+ K◆ 资料准备相对比较容易9 p& E# x5 R$ R6 d8 u) F: A5 C. H% J
(不需要做特征标准化、可以处理合理的缺失值、不受异常值的影响)! e, i8 N9 I+ p0 u2 R: i3 X; x% I
◆ 因为解释性高,能用在决策分析中,找到一个最可能达到目标的策略5 V5 X) a5 B9 g
4 z! M2 k [7 {. r* d ADecision Tree的缺点: *** o7 ?- _9 n( l4 M
**◆ 容易过度拟合(Over-fitting) ; T: R$ G* J. \◆ 若类别太多,但资料量太少,效果比较差8 w( e" [+ ]) w6 G. S/ t$ L
5 m% X# z# D- E% h2 Z+ M+ {
四、随机森林(Random Forest)6 v8 F9 u6 F: h* ]. b. E: d
随机森林,是取部分特征与部分资料产生决策树,每重复此步骤,会再产生一颗决策树,最后再进行多数决投票产生最终结果。( x0 |/ e& Q9 U( ~- b% i! z
7 h% a2 D6 y% ~. Y, p' `" p
随机森林可以降低决策树有过拟合的问题,因为最终结果是对所有的决策树结果进行投票,进而消除了单棵决策树的偏差。 M) z/ ?% u. T- U, o ! S4 f2 Z5 t' d7 B4 @: hRandom Forest Example (Source from Internet) 4 J8 [# ~' Q1 `& q5 @ * I$ x" z- \ B0 O4 nRandom Forest的优点: ) A, F* ?# Q" [' h/ r+ x◆ 随机森林的决策树够多,分类器就不会过拟合 m# u6 ]1 J ?
◆ 每棵树会用到的资料和特征是随机决定的# k7 `8 f7 D Y* g- Q: h
◆ 训练或预测时每棵树都能平行化的运行 / b7 Q- } z3 J: `3 S ! N6 B U2 \! g- f* S2 fRandom Forest的缺点: **8 a) i+ [$ o+ o8 F, P
**◆ 当随机森林中的决策树个数很多时,训练时需要的空间和时间会比较大 % H% `. Y e. n $ J4 _& x( |$ @1 E3 T五、极限梯度提升(eXtreme Gradient Boosting, XGBoost)- A* T- T" r( C) o
其实会想写这篇文章,是因为在使用Kaggle资料做练习时,发现网站上有需多人使用XGBClassifier做分类预测,因此想进一步了解这个模型。7 g! q% W; A7 n
: }* X- _, D( a( U
XGBoost的两个主要概念:7 g: S0 A' S: k& a* Q* ]
$ S& ~1 v( \6 d( Z; _$ `1. 回归树(Classification and Regression Tree, CART) 4 y" E& m C- O回归树拥有和决策树一样的分支方式,并在各个叶端(Leaf)有一个预测分数(Prediction Score),且回归树是可以做集成的,也就是把资料丢到所有树中,把得到的预测分数加总。 : R$ o& T( X- R) S8 c# x% _4 ~4 e3 h8 G8 s5 v
2. 梯度提升 ' @+ F" F x/ x4 w: }& D# t先以常数作为预测,在之后每次预测时新加入一个学习参数,要找出最佳参数,是在每次迭代中,使用贪婪演算法计算Gain,并找出最佳分支做新增,并对负Gain的分支做删减(详细请参考文章1说明)。换句话说,就是「希望后面生成的树,能够修正前面一棵树犯错的地方」。, u+ Z8 Y2 i; \' u3 K6 w
4 r C3 ^( X+ x9 l+ M& L$ ~
Random Forest 和XGBoost 差异如下图例: 6 i3 s) Z0 X5 z, B9 K* RRandom Forest是由多个决策树所组成,但最终分类结果并未经过加权平均;而XGBoost是由连续的决策树所建构,从错误的分类中学习,并在后续的决策树中增加更高的权重。 # J8 R q+ a; Q7 I5 I. U( ]' b$ U' i7 |4 \
Random Forest and XGBoost Difference (Reference: 參考文章3)2 v. c) {7 |. T. f4 N+ o' ^
) o* `" X" n" j m" F' ~/ JXGBoost的优点:/ X1 r2 q' q' k m u5 G- R: g" z( Y" Z
◆ 在损失函数中加入正则项,控制模型的复杂度,防止过拟合现象" ?6 s2 ?, I0 h9 U6 v! E& `+ l
◆ 在每次迭代后,会将叶子节点的权重乘上该系数,来削弱每棵树的影响3 W% k* z: Q: ]' J. F
+ O7 L+ H& v/ Y0 v2 c
XGBoost的缺点: ** 7 }' J: I. s/ _2 k**◆ 空间复杂度过高,需要储存特征值和特征对应样本的梯度统计值( f$ s2 A& U1 X1 b
————————————————; q3 M1 W+ L* c. ]4 d
版权声明:本文为CSDN博主「wuxiaopengnihao1」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。3 Z M9 A/ @# \* K0 `" T
原文链接:https://blog.csdn.net/wuxiaopengnihao1/article/details/126686410$ p& C8 B2 }& V! {! q
$ v9 D8 c( R: v( t6 q