- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 563342 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174225
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
7 [, A. L! M6 ~! _& cPython机器学习-多元分类的5种模型) L6 `, f& y8 n1 h2 S$ u
; ^ ^5 I) E$ [: c o# l最近上了些机器学习的课程,于是想透过Kaggle资料集来练习整个资料科学专案的流程,在模型训练阶段,虽然听过许多分类模型,但不是很了解其各别的优缺点与适合的使用时机,所以想来整理一篇文章,统整上课学习与网路资料,作为后续专案的优化方向!! ?0 {. E4 _ m; c+ o
! K4 G* ~' J) l" {首先,机器学习主要分为「监督式学习」与「非监督式学习」,两者的差异在于资料是否有「标签」。: N2 F9 C" r. N/ z' @9 R7 c
9 O+ j: |1 i) v. ?5 B/ ]监督式学习(Supervised Learning):给予「有标签」的资料,举例来说:给机器一堆苹果和橘子的照片,并说明哪些是苹果、哪些是橘子,再拿一张新的照片询问机器这是苹果还是橘子,而监督式学习又可分为回归(Regression)和分类(Classification)。8 }# K: b6 U. z/ T' q. u! x7 D
* p; o; |$ i6 ^$ h& ~" f
非监督式学习(Unsupervised Learning):给予「无标签」的资料,让机器找出潜在的规则,举例来说:给予机器一堆苹果和橘子的照片,但没有告诉机器这些照片各别是哪种水果,让机器自行找到资料间的相似性,而非监督式学习又可分为分群(Clustering)和降维(Dimension Reduction)。# c% ^1 c7 Q. _/ S, s, k% S' P
3 F- s$ Z% b c; d
这篇文章会以监督式学习中的分类模型为主。- C) s3 H0 g& l. x. z* Z5 B
' ~4 }* B8 J" `, M一、逻辑回归(Logistic Regression); W9 Y8 q1 |; Z+ m
逻辑回归是个二元分类(Binary Classification)的模型,并有其对应的机率值,举例:明天会下雨的机率有90%。
* o: \7 N# t6 `1 d' y# w* }! l+ V4 ~) W" X* O
基本概念是利用线性回归线(Linear Regression Line),将资料分为A/B两类,再透过Sigmoid Function (or Logistic Function) 输出A类别的机率值(0~1),若机率>0.5则判断为A类别,因为是二元分类,所以当机率<0.5则被归类为B类别。
) @1 j1 K" {" G t! u
; V! r& S& G$ K% C9 ^2 Z: T) O1 H若需处理多元分类问题,有两种方法:
3 _9 H- Q# v5 v1 B' {4 S/ w- A1. One versus Rest (or One versus All):将每个分类与其他剩余的资料做比较,若有N个类别,就需要N个二元分类器。以下方图例来说明,若有类别1~3,每次各使用一个类别与剩余的两个类别作二元分类后,会得到三个分类器,预测时把资料放到三个分类器中,看哪个分类器的分数较高,就判断为该类别。9 R& }* _3 g& d7 Y) H3 H
& [3 e# s5 \& p
One versus Rest Example (Source from Internet)
) W( O. \( e. j. L4 j+ |$ b5 Z3 I+ _
& }3 K6 l3 L; ^* M! J: q2. One versus One:每次选择两个类别做分类,若有N个类别,就会有N*(N-1)/2个分类器,将每次分类的结果做投票,最后判断为票数最高的那个类别。举下方图例来说,有三个类别,会有三组分类器,最后新资料会判断为票数较高的类别1。
1 n$ [0 l" L* S
' _1 K' P0 u6 [/ m% w, [6 p, yOne versus One Example (Source from Internet)7 m$ c2 [) }$ d" L" c% |
+ L( A- e4 q" V' B* L) ~0 V4 RLogistic Regression的优点:
' A8 F) o3 h5 n( q◆ 资料线性可分(包含在高维度空间找到linear plane)
& R/ |& Y: s+ D! x0 |◆ 除了分类,也可以得到A/B两类的机率
6 Y5 r( [5 _2 }* N5 \; n* r◆ 执行速度较快. n- F8 T9 n5 g; t, N
/ p5 E! W3 b0 P+ a0 {Logistic Regression的缺点:# }2 S* [4 X4 S( g7 i" z
◆ 线性回归线的切法可能不够漂亮
2 H. \3 m' H' d5 S E+ F◆ 不能很好地处理大量、多类特征
) l6 k5 ^% P4 }& j0 N" F$ k* S" p% |/ k3 s$ C! H
二、 支持向量机( 支持向量机,SVM)1 C6 {4 u4 W9 ~/ C
支持向量机(Support Vector Machine)是在寻找一个超平面(Hyper-plane)来做分类,并使两个类别之间的边界距离最大化(会忽略异常点Outlier)。
: w# D" Q4 p/ f1 f) X" C m& D- q# H* M" g0 i$ |" k( d
SVM也可使用于非线性分类(如下图B),透过Kernels functions将低维空间转换为高维空间,让资料可以在高维空间被线性分类。想像红色球的重量比蓝色球还重,在平面上一拍,让球往上弹,重量重的红色球会较快落下,在立体空间就可以找出个平面来切分红色和蓝色球。
4 o5 @% `/ z& Y/ X0 j7 \4 C% E& S6 ]( [( p# K$ S! i, o( S
Support Vector Machine Example (Source from Internet)4 h! k4 l. v; N# `, ?
, A8 h4 h0 J5 }. p7 U: x* I
SVM的优点:
4 l8 x* ^3 z* y6 q6 J. z◆ 切出来的线或平面很漂亮,拥有最大边界距离(margin)$ U5 X3 J/ C: W5 P& T; z
◆ 在高维空间可以使用(即使维度数大于样本数也有效)
& _# s, S \6 s4 ]* G◆ 在资料量较小、非线性、高维度与局部最小点等情况下有相对的优势" v$ q) \% t3 z5 f. L2 U$ S
$ X3 u% {! e, p: v2 \* |SVM的缺点:8 r% r7 G$ t0 M0 `
◆ 当资料太多时,所需的训练时间太长,而使效果不佳
2 N1 }) O" N2 c9 b3 J& d◆ 当资料集有太多noise时(如目标类别有重叠),预测的效果也会不好
) t# F0 m; ?* N( S$ p◆ SVM不会直接提供机率的估计值4 E5 ?( ?" N( Z g
$ | G3 e7 X# ?+ a" d3 _3 G% v
三、决策树(Decision Tree)
( ~3 T8 k1 M2 y& k2 k: P* g% i透过模型预测可以得知某个方程式来做分类,但方程式可能很难懂或很难解释,这时需要决策树(Decision Tree),它的准确性可能没有很精准,但「解释性」高,所以决策树是一种条件式的分类器,以树状结构来处理分类问题。
5 U6 t: O% R7 b; D& l: [; l! e2 V& P# E6 \ u; J |1 Y
建构决策树的方式,是将整个资料集依据某个特征分为数个子资料集,再从子资料集依据某个特征,分为更小的资料集,直到子资料集都是同一个类别的资料,而该如何分类则是透过资讯熵(Entropy)和资讯增益(Information Gain)来决定。
' R& @! @+ f0 Z5 a. R9 w1 e ~/ I! [
1. 资讯熵(Entropy):用来衡量资料的不纯度,若资料为同一类Entropy=0,若资料「等分」成不同类别Entropy=1。
9 J- Z: L0 ~% E M' ]& \ C3 [1 {2 i1 Z5 t' Q
2. 资讯增益(Information Gain):用来衡量某个特征对于资料分类的能力,而建构决策树就是要找到具有最高资讯增益的分类法(得到纯度最高的分支)。简单来说,原本的资料集(High Entropy=E1),经过分类,得到多个资料集(Low Entropy=E2),其中的E1-E2=Information Gain。- I" {; W, e. M* `/ c
- |& U; M3 w! s- kDecision Tree的优点:9 z* a1 Y' [6 k
◆ 决策树容易理解和解释
0 p+ P' \0 N6 Z/ ?◆ 资料分类不需要太多的计算+ m4 Q- p' l; k0 H- k, V
◆ 可以处理连续值和离散值( p: \/ F. ]: ]+ ]
◆ 资料准备相对比较容易1 N, S6 F0 c8 V7 j ^: ^% \' M; I
(不需要做特征标准化、可以处理合理的缺失值、不受异常值的影响)6 s2 ~: E/ ?1 Q% ^% T: `
◆ 因为解释性高,能用在决策分析中,找到一个最可能达到目标的策略
( \& o+ Q+ c, t$ u
$ c$ J- m7 J: b; U% g2 [3 C: ZDecision Tree的缺点: **
1 }% z$ T$ a. J- j9 o+ d**◆ 容易过度拟合(Over-fitting)
0 ^4 q+ s# U3 n7 b( N& A◆ 若类别太多,但资料量太少,效果比较差
2 O/ _7 L& q6 e- d# n: x/ d( w! W$ {9 s* T0 F, S5 y! Q+ ^" e
四、随机森林(Random Forest)
3 q1 [8 e- R( Q$ r随机森林,是取部分特征与部分资料产生决策树,每重复此步骤,会再产生一颗决策树,最后再进行多数决投票产生最终结果。; A5 J) y5 F1 F8 l5 K8 Q, f
. y- D. g0 z7 }: D) M- G
随机森林可以降低决策树有过拟合的问题,因为最终结果是对所有的决策树结果进行投票,进而消除了单棵决策树的偏差。
- w7 q! A% g. L6 o6 n2 \- q# X7 S z" I+ ~& u
Random Forest Example (Source from Internet). u. D( s0 [/ k( y' x
8 h1 w7 L% {5 d) N3 S/ C' ^( xRandom Forest的优点:& M% ]# T) j- R
◆ 随机森林的决策树够多,分类器就不会过拟合
3 H6 i$ ]( p) {6 H3 {◆ 每棵树会用到的资料和特征是随机决定的
4 b+ o& W, l, L7 d+ v* Z4 S◆ 训练或预测时每棵树都能平行化的运行6 J: \0 ~$ i8 t4 M
& s; n0 @* D, R* z9 ]& t, dRandom Forest的缺点: **
, \" V; c' T4 l4 B2 }**◆ 当随机森林中的决策树个数很多时,训练时需要的空间和时间会比较大 F$ \8 K, Z4 s9 B" c# C/ h: a
! Z" v% ]- }/ X# C3 O4 a" U
五、极限梯度提升(eXtreme Gradient Boosting, XGBoost)
" _8 ~2 a+ J+ ]! H& \; a* F/ q其实会想写这篇文章,是因为在使用Kaggle资料做练习时,发现网站上有需多人使用XGBClassifier做分类预测,因此想进一步了解这个模型。5 S& M9 y4 o) N' R2 G
+ B9 }( M2 R7 Y
XGBoost的两个主要概念:" ?0 r1 t. _4 E- N
4 q* _- J6 U7 k" B% m3 u1. 回归树(Classification and Regression Tree, CART)( z3 w* p" Q7 \' }+ F8 F( x- ^ X( G
回归树拥有和决策树一样的分支方式,并在各个叶端(Leaf)有一个预测分数(Prediction Score),且回归树是可以做集成的,也就是把资料丢到所有树中,把得到的预测分数加总。
, D+ M8 j! B, b. q( m3 o8 M" F0 H
e9 t& S+ d0 m* U/ ^9 T2. 梯度提升5 r) n( s) E8 x
先以常数作为预测,在之后每次预测时新加入一个学习参数,要找出最佳参数,是在每次迭代中,使用贪婪演算法计算Gain,并找出最佳分支做新增,并对负Gain的分支做删减(详细请参考文章1说明)。换句话说,就是「希望后面生成的树,能够修正前面一棵树犯错的地方」。. X; o1 F% Y3 j! T: C
- |& \2 c6 ?: J" u0 h& N5 J, n
Random Forest 和XGBoost 差异如下图例:' e Y) a. q+ |, w
Random Forest是由多个决策树所组成,但最终分类结果并未经过加权平均;而XGBoost是由连续的决策树所建构,从错误的分类中学习,并在后续的决策树中增加更高的权重。
: q: E0 {; w4 p* c3 E
; Q$ \3 l1 \9 Z& J2 a9 r1 uRandom Forest and XGBoost Difference (Reference: 參考文章3)$ f* ~9 D" b: U4 _1 P$ g* ]8 u. H0 `
+ H. g0 y7 H' f
XGBoost的优点:; ?. L& [& B1 Q0 l. E9 v' M
◆ 在损失函数中加入正则项,控制模型的复杂度,防止过拟合现象. w1 I# Y3 h% t. o
◆ 在每次迭代后,会将叶子节点的权重乘上该系数,来削弱每棵树的影响
7 s4 ~7 ~& l! F3 A+ d5 H5 ^# a
i8 Y3 H9 t1 e5 yXGBoost的缺点: **. r: h* c% w# w: M; t- F% W
**◆ 空间复杂度过高,需要储存特征值和特征对应样本的梯度统计值3 @! B$ X. _: ^2 A# |# U$ I
————————————————
; E& b; I9 Q* Z" M! ^! r版权声明:本文为CSDN博主「wuxiaopengnihao1」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。$ p7 S6 c( @; h3 n) q1 a
原文链接:https://blog.csdn.net/wuxiaopengnihao1/article/details/126686410
" X% d" l7 A. y$ P; ~7 m& O0 Q
+ |+ Q6 }9 z9 I |
zan
|