- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 560035 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 173383
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 18
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
- U$ ?" ? J- R, t% D' u2 QPython机器学习-多元分类的5种模型
: J: N) _! V2 f1 y) _0 m ?% l! |# S6 |5 j2 f
最近上了些机器学习的课程,于是想透过Kaggle资料集来练习整个资料科学专案的流程,在模型训练阶段,虽然听过许多分类模型,但不是很了解其各别的优缺点与适合的使用时机,所以想来整理一篇文章,统整上课学习与网路资料,作为后续专案的优化方向!
8 g: {2 x# w. h* |3 t G3 q$ l
8 m1 t% O, E% [. P9 d首先,机器学习主要分为「监督式学习」与「非监督式学习」,两者的差异在于资料是否有「标签」。
, C( W) m' `7 M3 W% Q7 X
. Y0 B9 V2 C( R, B4 r% [: ^8 K: j" w监督式学习(Supervised Learning):给予「有标签」的资料,举例来说:给机器一堆苹果和橘子的照片,并说明哪些是苹果、哪些是橘子,再拿一张新的照片询问机器这是苹果还是橘子,而监督式学习又可分为回归(Regression)和分类(Classification)。
! ^. c3 U8 b# y: N/ H( D6 h, x' j3 D
非监督式学习(Unsupervised Learning):给予「无标签」的资料,让机器找出潜在的规则,举例来说:给予机器一堆苹果和橘子的照片,但没有告诉机器这些照片各别是哪种水果,让机器自行找到资料间的相似性,而非监督式学习又可分为分群(Clustering)和降维(Dimension Reduction)。
9 s l, @( b( G) k* [% ?9 t8 L- s, F f( e, w4 h a6 x
这篇文章会以监督式学习中的分类模型为主。
4 W% @0 [: M$ ^; b/ @
/ m* V& [6 H6 I% V8 U一、逻辑回归(Logistic Regression)
1 J7 ?5 P/ t6 i0 M- Y5 k+ [, |/ I逻辑回归是个二元分类(Binary Classification)的模型,并有其对应的机率值,举例:明天会下雨的机率有90%。
( I2 t E- v4 X6 \: W B' ^# z$ {. t
基本概念是利用线性回归线(Linear Regression Line),将资料分为A/B两类,再透过Sigmoid Function (or Logistic Function) 输出A类别的机率值(0~1),若机率>0.5则判断为A类别,因为是二元分类,所以当机率<0.5则被归类为B类别。: V d' Q, b& U: c
6 B+ D* q' B6 M% \
若需处理多元分类问题,有两种方法:
4 k4 n- w4 {) p7 C/ }# ~( n1. One versus Rest (or One versus All):将每个分类与其他剩余的资料做比较,若有N个类别,就需要N个二元分类器。以下方图例来说明,若有类别1~3,每次各使用一个类别与剩余的两个类别作二元分类后,会得到三个分类器,预测时把资料放到三个分类器中,看哪个分类器的分数较高,就判断为该类别。
) r# S- W0 U: U, i) @! `* h
- J# [3 L1 }, w! ~: _ yOne versus Rest Example (Source from Internet)
9 I1 F, H/ O5 I' d, f6 ~' i: ], S- @6 P- g# C- k% o
2. One versus One:每次选择两个类别做分类,若有N个类别,就会有N*(N-1)/2个分类器,将每次分类的结果做投票,最后判断为票数最高的那个类别。举下方图例来说,有三个类别,会有三组分类器,最后新资料会判断为票数较高的类别1。 Y" y; L' i* O& q" F
2 W: a0 U- W- hOne versus One Example (Source from Internet)( K, V% ? ]+ B8 S( M" k
2 W# v2 H5 { c A
Logistic Regression的优点:
% l8 u- y& K* F2 f# Q ?) a+ h6 l◆ 资料线性可分(包含在高维度空间找到linear plane)
6 K0 |) |' e. P+ D. r) l◆ 除了分类,也可以得到A/B两类的机率
: J) }" ]: n' t◆ 执行速度较快
" ~; X% ?- v' Z* i1 A. M4 w. H# w
8 }/ a& J( X/ M1 uLogistic Regression的缺点:
+ d/ A4 l- C+ A* t/ E/ C◆ 线性回归线的切法可能不够漂亮9 ?0 e3 s) F/ L9 h8 F" [/ [1 B# I
◆ 不能很好地处理大量、多类特征' x6 q. l6 P- ~% \
7 K9 m2 t3 Y; V- J4 y6 v1 a m
二、 支持向量机( 支持向量机,SVM). v* v/ t! R" b* K
支持向量机(Support Vector Machine)是在寻找一个超平面(Hyper-plane)来做分类,并使两个类别之间的边界距离最大化(会忽略异常点Outlier)。/ _" X' u6 F, q! I3 x2 M
. h1 E* z1 K4 _) Y8 @0 ?; eSVM也可使用于非线性分类(如下图B),透过Kernels functions将低维空间转换为高维空间,让资料可以在高维空间被线性分类。想像红色球的重量比蓝色球还重,在平面上一拍,让球往上弹,重量重的红色球会较快落下,在立体空间就可以找出个平面来切分红色和蓝色球。# `/ P. U7 C6 u6 K( L. u' f8 z
- ~- |9 K0 p9 r/ z. n7 |1 X
Support Vector Machine Example (Source from Internet)/ E3 q4 ^" e! b/ z0 z5 {" f
: P: U% p3 p/ a, S" J
SVM的优点:
% X7 p5 _: `- Y6 x◆ 切出来的线或平面很漂亮,拥有最大边界距离(margin)
3 Z/ a6 k( x# r+ _ e. ^' p b◆ 在高维空间可以使用(即使维度数大于样本数也有效)! L" Z' N, V; ]! h( c" _* z
◆ 在资料量较小、非线性、高维度与局部最小点等情况下有相对的优势9 {- e4 F; h4 M; m8 N( n
" y! Z3 A: v* ?& m F ~) QSVM的缺点:# ^' j* O% N; P5 y, H
◆ 当资料太多时,所需的训练时间太长,而使效果不佳
# H6 e _7 g1 r. u; t0 L◆ 当资料集有太多noise时(如目标类别有重叠),预测的效果也会不好
$ K8 {' U6 t! g: `2 i1 o r8 L◆ SVM不会直接提供机率的估计值
; S2 p% c( \) s8 m; }* S8 C. j# I* K# w! _* d
三、决策树(Decision Tree)0 B5 M1 ?. x: A) {. ^* o9 ?, x! p
透过模型预测可以得知某个方程式来做分类,但方程式可能很难懂或很难解释,这时需要决策树(Decision Tree),它的准确性可能没有很精准,但「解释性」高,所以决策树是一种条件式的分类器,以树状结构来处理分类问题。' K+ s4 X8 T( Y0 O- r# t1 {- k4 @
! n! \* _: H3 Y$ N C
建构决策树的方式,是将整个资料集依据某个特征分为数个子资料集,再从子资料集依据某个特征,分为更小的资料集,直到子资料集都是同一个类别的资料,而该如何分类则是透过资讯熵(Entropy)和资讯增益(Information Gain)来决定。8 x0 E' A6 s, z: r
9 k: ?: v7 D4 C9 H' p! Q5 N" V1. 资讯熵(Entropy):用来衡量资料的不纯度,若资料为同一类Entropy=0,若资料「等分」成不同类别Entropy=1。# H# ]/ m3 _) Z, D. U& O
1 t* u' z2 L+ y. X2. 资讯增益(Information Gain):用来衡量某个特征对于资料分类的能力,而建构决策树就是要找到具有最高资讯增益的分类法(得到纯度最高的分支)。简单来说,原本的资料集(High Entropy=E1),经过分类,得到多个资料集(Low Entropy=E2),其中的E1-E2=Information Gain。2 s$ }( _) h1 L' }9 q
( O3 w1 b) ^( r( X, p
Decision Tree的优点:
. ~) t( z7 q2 @2 k3 Z◆ 决策树容易理解和解释8 V, b" m. J- ? ]+ h
◆ 资料分类不需要太多的计算
- R6 z9 N Z. b◆ 可以处理连续值和离散值- ]* d* L& S" ~% j7 u% b
◆ 资料准备相对比较容易
L+ P# O% W$ r/ H: P(不需要做特征标准化、可以处理合理的缺失值、不受异常值的影响)
5 p r4 q! s2 G' G3 x! Z/ ~0 Q◆ 因为解释性高,能用在决策分析中,找到一个最可能达到目标的策略. b2 L, U8 ]* F2 I' D, X9 t4 n
6 Y; m4 O+ ]( ?$ iDecision Tree的缺点: **! a- O3 E& ~' I' C+ n) K
**◆ 容易过度拟合(Over-fitting)* \8 m# D. U7 k% u
◆ 若类别太多,但资料量太少,效果比较差
8 X: ~' ^+ e9 @# L4 a: {$ x( T1 Q9 \! e* J$ q
四、随机森林(Random Forest)
! ^+ b) @/ ?: a* I, s; H1 A随机森林,是取部分特征与部分资料产生决策树,每重复此步骤,会再产生一颗决策树,最后再进行多数决投票产生最终结果。
5 q R1 f" X0 i1 o; G3 j2 m: Q
5 P6 T3 c4 d0 D! K% t8 g随机森林可以降低决策树有过拟合的问题,因为最终结果是对所有的决策树结果进行投票,进而消除了单棵决策树的偏差。' t& A* v+ o5 Z* _3 @3 s6 ]
[3 N' ], u6 l3 ]' o7 rRandom Forest Example (Source from Internet)8 M/ e, U: b* r; c
9 I) w7 F, U; D& q# z; H h
Random Forest的优点:
9 u/ K; p/ @" X◆ 随机森林的决策树够多,分类器就不会过拟合
) h1 j& m0 j' W◆ 每棵树会用到的资料和特征是随机决定的
( ?+ |( U* ~7 k% ^+ | ?◆ 训练或预测时每棵树都能平行化的运行- K% {9 E7 }. }
4 q( y% I4 S% [: j- d8 j( x: {( lRandom Forest的缺点: **
. R2 Z% x$ h0 y6 n9 o+ p" [; J- m**◆ 当随机森林中的决策树个数很多时,训练时需要的空间和时间会比较大
, \) N: `$ I4 q4 T1 P/ Q( ]0 o
: { w) E7 t( S; a: t5 L+ `0 h五、极限梯度提升(eXtreme Gradient Boosting, XGBoost)
" f7 B$ t u' `其实会想写这篇文章,是因为在使用Kaggle资料做练习时,发现网站上有需多人使用XGBClassifier做分类预测,因此想进一步了解这个模型。6 ?" Z+ H7 @% l! {' q1 }+ t4 R
4 z3 ?# M8 p' q7 I+ g
XGBoost的两个主要概念:! t$ F$ k# ?% M7 D' d1 G$ B2 ~% s. P }$ q
7 ?- A# a) G* H5 r) {
1. 回归树(Classification and Regression Tree, CART) x' j5 a, N, H/ ~7 {0 K; L
回归树拥有和决策树一样的分支方式,并在各个叶端(Leaf)有一个预测分数(Prediction Score),且回归树是可以做集成的,也就是把资料丢到所有树中,把得到的预测分数加总。$ i$ j8 r5 V* w; w+ u; |
3 V# P4 ~8 x1 H6 G
2. 梯度提升6 U4 d) b, S M; S
先以常数作为预测,在之后每次预测时新加入一个学习参数,要找出最佳参数,是在每次迭代中,使用贪婪演算法计算Gain,并找出最佳分支做新增,并对负Gain的分支做删减(详细请参考文章1说明)。换句话说,就是「希望后面生成的树,能够修正前面一棵树犯错的地方」。
' A3 d9 r5 h8 Z# Y5 W- ?& j U: y0 Y! q# l5 p
Random Forest 和XGBoost 差异如下图例:
. M" F2 i4 H# u) eRandom Forest是由多个决策树所组成,但最终分类结果并未经过加权平均;而XGBoost是由连续的决策树所建构,从错误的分类中学习,并在后续的决策树中增加更高的权重。- d9 w) b: c1 y: Y& V: q
# e( o& W3 I q& FRandom Forest and XGBoost Difference (Reference: 參考文章3)2 h! d; l2 D$ w8 _7 d" o) ?! a, N
7 i# g+ k) q5 {5 [$ DXGBoost的优点:, L9 Y9 n* T7 r/ E7 m$ R6 U7 N
◆ 在损失函数中加入正则项,控制模型的复杂度,防止过拟合现象- z4 E1 ~& d$ e. p2 Y7 f
◆ 在每次迭代后,会将叶子节点的权重乘上该系数,来削弱每棵树的影响
4 _2 o) U0 q( g' s0 K
% o- P/ c, q pXGBoost的缺点: **
, |8 r6 v( U0 G# f( [) Q( F6 O**◆ 空间复杂度过高,需要储存特征值和特征对应样本的梯度统计值
, Y+ ]7 F8 s- s5 k7 d+ O4 |( x* b————————————————
, @6 r" d2 W% {' N& [版权声明:本文为CSDN博主「wuxiaopengnihao1」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
' c0 v4 `# q/ M原文链接:https://blog.csdn.net/wuxiaopengnihao1/article/details/1266864106 w" m- `. N T: }7 G
1 E9 L, u L/ B# Y8 l0 _
. K# t' V( o% i5 g, E; S/ @
|
zan
|