: v+ K* G$ U: `* ^! d/ z1 F0 N$ A' a2 Q# F4 h: L& s- u, s
$ {$ f& v" i; V5 U# k后面重复此过程,寻找最佳预测空间和拆分点,从而使每个结果区域的RSS值最小,直到达到终止拆分标准,比如每个终端节点包含的样本数都不高于设定的阈值。 ( c G2 U1 r- `6 O B2 F8 L9 w+ c
2.1 构建回归决策树 ' g7 W5 w0 R5 `" o" R @/ D使用微生物数据与环境因子数据进行决策树回归分析。为了更好的评估分类树的分类性能,不能只计算训练误差,需要估计测试误差。将数据分为训练集和测试集数据,训练集数据用于构建模型,测试集数据用于模型评估。2 |( A: C1 F& U( g) r, ~- H
2 v% U3 [( ^! w f# d" ?9 g# 2.1.1 将数据集分为train和test集,用train结果预测test的因变量值。3 {% N+ m: k/ C0 d# v/ k
library(splitstackshape)1 |6 |4 X1 }4 x& z- ]: {9 e
spe = data.frame(ID = rownames(spe),spe)# stratified提取后,样本名会消失,先提取样本名,重新构建数据框。 4 u( K J+ A. I- y$ ?. k7 J 1 @. a% u/ X+ B2 q$ O## train data sets,每个分类提取相同数目的样本用作训练集 % n3 m/ |* t7 ?% Q- h5 eset.seed(12345); Q7 D# ]# ^6 ~) @$ I) K
train.spe = stratified(spe, group=c("grazing"),size=10,replace=FALSE)" {$ `9 C3 k6 X; ^) q" L0 }+ g
table(train.spe$grazing) # 每个分类提取的样本数一致。# ~/ a$ b+ _0 r; G- s) z( i7 ^0 F
& u! M1 I& L: S g
train.env = env[rownames(env) %in% train.spe$ID,] , k/ |# k! O! U4 `; Stable(train.env$grazing) # 每个分类提取的样本数一致。 5 \+ S- ~% @. K- K5 z % V- A+ @! W9 Q7 B1 j## test data sets% G; P; R" {; w: C9 K) \) }2 O
test.spe = spe[!spe$ID %in% train.spe$ID,] / g. M$ d+ K3 w5 \$ @6 Atable(test.spe$grazing)8 U) i T+ D0 ~
9 K; Y& X8 Q+ o
test.env = env[!rownames(env) %in% rownames(train.env),]$ M6 O, M3 c! l
table(test.env$grazing). K4 u) x, }/ ~5 o
6 g) \% w+ u# [/ b: {, L2 n9 M$ _. N4 r
#install.packages("tree") s1 }& i5 |4 z( b. i
library(tree)$ R- ~ ~0 f) s7 ]& T- f
3 Z5 ^# [1 \) h W# q2 N9 ^
# 2.1.2 构建回归决策树: P# O9 q0 o( ^ g/ z
reg.tre = tree::tree(train.env$env1 ~.,data=train.spe[,-c(1:3)]). W3 Y* q' Q6 r6 [% j
reg.tre, h, F1 j1 o/ {& l3 L; s1 u+ @* p
- _3 x1 c$ G2 @& Q' {* _+ o
# 2.1.3 输出结果简介+ ^8 O% A% A& n, {4 u I
## 输出表格的行为节点名(整数值表示),包含9列数据。 / I8 m2 h( A& F7 `4 Z( M6 r4 E! vreg.tre$frame ( P. Q2 I, o8 V4 A K3 ]
## 列包括var:用于拆分节点的变量及终端节点(<leaf>);" a* @; O! o! \* ?
reg.tre$frame$var1 k5 B, w8 s& G
## n:每个节点的样本数量;; H* v, i9 _7 |3 X8 k0 s
reg.tre$frame$n% ]3 q- A, c# y s
## dev:每个节点的偏差+ v! Z W0 m7 v6 G! O! _* d1 X( E
reg.tre$frame$dev 1 h2 n& C! V" \: d( d" l' |9 W## yval:拟合结果,回归树为节点包含样本的因变量均值,分类树为该节点样本最多属于的分类水平; % g* _( i! B5 o/ p* r- t#mean(train.env[reg.tre$where == 4,3]) # 第四个节点包含样本的因变量均值。" i' }6 ]! B% B5 C3 I
reg.tre$frame$yval0 |, {; K( \! t- n9 {
/ ~- a* n. F+ \9 ]* L## split: 节点拆分,2列分别是属于左侧或右侧的标签;8 H" c; y0 m, s2 s% z. Z: q
reg.tre$frame$splits7 l8 w+ P2 c$ x* q6 m" ]" _) d5 f5 y
## yprob:回归树,此为NULL;分类树则为因变量各水平的拟合比率,此数据有5个处理,所以有5列。; d% S7 d, j; E( W3 N9 e
reg.tre$frame$yprob * h$ H( T/ H3 L4 V+ z ! r4 _8 E5 [) F4 J a& G! J* f## output,需要输出行名,则设置row.names=TRUE。& f8 f ]" P3 v. W x
write.table(reg.tre$frame,"reg_tre_res.txt",sep="\t",quote = FALSE,row.names = FALSE) ) Z5 c& I! Y M5 B4 Z, i- T" h' l, A% A2 f' I
## 每个样本所属节点 0 e5 \5 y; V# l: Y" xreg.tre$where) S* i! k. X; d2 a
## formul形式 : Q1 s& g' {/ [! h. u. S( { E( Jreg.tre$terms 4 d& h z: }8 ^' Y4 q9 }1 _## 自变量数据,x=FALSE则不会返回此数据' @/ e4 v4 `; N9 B
reg.tre$x ) N8 k% T% u0 e. h5 P; E# a H## 因变量,y=FALSE则不会返回此数据$ m' P6 q+ N: }" E
reg.tre$y6 W D7 X: B! d: Q/ k) C
## 样本权重,未设置则均为1,权重值可以为分数形式。 h! b) n) [ Ireg.tre$weights& v' X9 j+ C/ f, x: w+ t U; J
* T/ C( Z4 N4 o5 v' d5 L## 结果描述统计 4 q( D' C: y- N6 N- Zreg.tre.res = summary(reg.tre)9 z0 Z. M. N' `3 ]3 `
reg.tre.res- w* q5 V- A2 `; U* |
reg.tre.res$used # 用于构建回归决策树的自变量& z1 }7 Z$ W. l j0 y. A/ }& p; U( A- M
reg.tre.res$dev # 偏差,决策树的残差平方和。1 S% Z8 z$ D# Q" r N# t
reg.tre.res$df # 训练样本数减去终端节点数 : X# Z7 F4 K9 U7 C2 creg.tre.res$residuals# 每个训练样本因变量的残差 . \; f" O2 [8 `& z2 N- ^ 6 A1 t+ S, O8 G## 简单绘图% t1 O/ o* N$ M6 Q) G/ A2 E
plot(reg.tre) |9 R Z! y. E2 Y" Z, l
text(reg.tre,pretty = 0) + X% ^" P: c3 T9 B$ a1 g* L9 H5 @2 u/ w7 t3 H" I. y
# 2.1.4 预测测试集数据 $ c1 S/ g" N# w7 b# yreg.pred = predict(reg.tre,newdata = test.spe[,-c(1:3)])* r+ t/ n+ M* e& e: ?7 J$ J
reg.pred 5 V1 b8 v3 x. J- i
## 预测结果与原始结果绘图$ }' W* t2 D7 A2 {
plot(reg.pred,test.env$env1) , g& \ N8 x% g) Dabline(0,1) ) s/ w. F! |4 m9 Q5 d $ a" ~. P H& }) x [. u## 计算残差平方和(MSE)和标准化均方误差(NMSE), k9 N4 V7 c9 ^: n5 H3 B$ Q% K9 i6 ]
MSE0 = mean((reg.pred-test.env$env1)^2) . F$ J# {- N, W7 p5 n4 eMSE0 ) ?# j9 o& Q7 `# W4 kNMSE0 = mean((test.env$env1-reg.pred)^2)/mean((test.env$env1-mean(test.env$env1))^2) ( i+ b1 d: W. j/ QNMSE0 2 r- l( |: e# H7 {- R9 h0 `$ K9 J: y. ~3 D* M! {; Z& {1 t2 m% z
+ y, ^9 d+ l' u2 F# A& a9 ^3 n, p ^; M. Y# |9 j
图3|回归树构建结果,reg.tre。每个节点以整数标注,tree()默认树最大生长数值为31。因子变量的分类水平不能超过32。+ z% z6 E) Z1 k' J8 G7 T q5 I& M" T
1 p" o0 A2 F, W$ K1 S- C& V
Z m7 T3 q8 C; R: H) m
4 B1 h3 U$ Z0 F6 p# a5 a6 J图6|简单回归树绘图。回归决策树的每个节点上的数值是该节点处因变量的均值。 : E9 v- K+ O% h B+ H4 ^8 e4 E1 z4 d
9 B5 ?; z4 q) ]+ l
& S `5 V0 R) T# a- S
图7|测试数据因变量实际值与模型预测值散点图并添加趋势线。& Q$ Y0 p# p9 p* o& W
: N5 j0 g8 Q$ Y
2 ~2 { `& K' H6 }' l i( I 3 |" Y2 E7 }: E" }' ^/ z* o图8|均方误差与标准化均方误差。评价模型预测好坏的一个准则为标准化均方误差(normalized mean squares error,NMSE)。. V* L- i$ J8 x: `: _: v8 Z- Q
- ^; E0 b: O% a- H0 r: X. g
4 q/ t. d, Y1 B: B. [5 P5 l4 O . q6 x1 h: N, G分母表示用最简单的算术平均来预测y的残差平方和。分子为该模型拟合后的残差平方和。此模型的NMSE不小于1,说明此回归模型没有任何意义(NMSE≥1)。此处是虚构数据,只讲使用方法,产生的模型没有任何意义,也没有影响。; f6 ?. o( m! i0 _. l$ i
1 _: C1 h# ~# m s& m2.2 优化模型-剪枝(Tree Pruning) & j: C$ T' Z; Q" u经过上述过程,构建的模型可能会过拟合,导致模型对训练集数据有很好的预测能力,但对测试集数据的预测能力较差。可能的原因是生成的决策树模型过于复杂。! P% i9 R' z r# @9 F0 x
6 m3 l" X3 J8 l$ s9 g! }
解决的方法之一是仅在拆分能使RSS降低值超过某个阈值的情况下才继续进行拆分。但是低于某个阈值的拆分点的之后的拆分点可能降低RSS的能力很强,所以不能随意剪枝。所以更好的优化模型的方式是先不设定RSS阈值,构建一个较大的决策树T0,然后根据某种方法对其进行剪枝获得子树。 1 G, T E+ U4 \* |- l' M4 m- P" E( @; @5 g
剪枝的标准主要为获得的子树的错误率最低,常用交叉验证选择具有最低错误率的子树。但是子树集一般很大,所以一般限定在一个更小的子树集中进行交叉验证。这里引入一个新的概念复杂性代价剪枝(Cost complexity pruning,或最弱链接剪枝(weakest link pruning))。此时剪枝不考虑每棵子树,而只考虑由非负调整参数α索引的树序列。然后基于交叉验证选择α。α控制着树的复杂性及树与训练数据的适配性之间的权衡,当α=0时,子树T就是T0;当α的值逐渐增大时,表示拥有许多终端节点的树要付出的复杂性代价,因此终端节点越少,α值将会越小。 ( q2 d: Z: f" Y ; F9 H7 H3 Z1 E+ Z9 h1 @, _2 L这里介绍两个定义方差(variance)与偏差(bias):1)方差是训练数据集的预测值或预测分类水平相对于其他数据集的预测值或预测分类水平的离散程度,代表了模型的泛化能力。2)偏差是模型的预测值或预测分类水平与训练数据中的实际值或实际分类水平之间的差别,代表了模型的预测准确性。模型构建要在方差与偏差之间权衡,使总体误差(偏差+方差)最小。5 N5 M# H, x' a$ Z' g