预测房价:回归问题——R语言/ k7 ^- E) B) R* ]
在回归问题中,我们的目标是预测连续值的输出,如价格或概率。将此与分类问题进行对比,分类的目标是预测离散标签(例如,图片包含苹果或橙色)。
5 p3 F3 P% N2 _1 y& }* A- P7 s
( M O6 k# f1 K) H* G6 v问题描述
5 [9 G Z* C6 I9 l! j, _ o) [) w1 E我们将要预测20世纪70年代中期波士顿郊区房屋价格的中位数,已知当时郊区的一些数据点,比如犯罪率、当地房产税率等。9 x1 _& t, e7 P* d1 ]9 G4 a8 Y
本次用到的数据集包含的数据点相对较少,只有506个,分为404个训练样本和102个测试样本。输入数据的每个特征(比如犯罪率)都有不同的取值范围。例如,有些特征是比例,取值范围0 ~ 1;有的取值范围为1 ~ 12;还有的取值范围0 ~ 100,等等。5 ?. K6 w3 _& r* ?
数据特征:, H& O" b/ V7 m! U1 o
人均犯罪率。1 s( U0 l$ r5 ~$ `
占地面积超过25,000平方英尺的住宅用地比例。
3 Y6 h1 l: Q" n每个城镇非零售业务的比例。
/ ` d! x5 Q& Z. xCharles River虚拟变量(如果管道限制河流则= 1;否则为0)。
1 a, k8 \. Z& T一氧化氮浓度(每千万份)。+ T- I4 I# V5 B9 Z4 Q$ c1 o* K
每栋住宅的平均房间数。
. }, k! s) J( p3 ]' b1940年以前建造的自住单位比例。
( a3 `# q( M/ e1 t. X% ~到波士顿五个就业中心的加权距离。) c( e0 l1 ?8 }" t, K3 G' B
径向高速公路的可达性指数。& m9 A) x' P) |( i
每10,000美元的全额物业税率。
7 P: Z* V2 u9 ?% d4 O城镇的学生与教师比例。
3 P( B$ r. x1 z0 Y$ |/ |# ]* |1000 (Bk - 0.63)* 2其中Bk是城镇黑人的比例。
& T! U& r/ k0 ^0 b人口比例较低的百分比。
! G" i/ @5 d! r2 z! e1. 加载波士顿房价数据! I! c# U, ~- E$ v. t
library(keras)
) j" b6 Z% T! C% o _8 ~0 l% q5 y- s3 k3 B6 ]0 Q
boston_housing <- dataset_boston_housing()
0 j, A/ U, _+ `! s! s4 @) Y. Q1 e$ z3 X) J6 ^* ]
c(train_data, train_labels) %<-% boston_housing$train
5 r3 @: X0 n( c sc(test_data, test_labels) %<-% boston_housing$test1 D; U N" t" v$ X% S1 U0 ^
, g8 @: e+ W8 I }/ K: N/ q/ w
每个样本有13个数值特征,目标是房屋价格的中位数,单位千美元。 2. 准备数据数据标准化 将取值范围差异很大的数据输入到神经网络中,这是有问题的。网络可能会自适应这种取值范围不同的数据,但学习肯定变得更加苦难。对于这种数据,普遍采用的最佳实践是对每个特征做标准化。
3 I! u! H1 n9 Y' a9 B! ^: Y& |# Test data is *not* used when calculating the mean and std.8 l9 J, A5 I; z" d' r7 U! t
/ K }+ J, `5 r, m1 r
# Normalize training data, c5 u* O: l' ~9 ~/ _; U& \
train_data <- scale(train_data) 8 @1 j1 S- @; H" A0 ~" w( A1 a3 m
6 V4 K) ?7 b3 b; a2 a# Use means and standard deviations from training set to normalize test set o' [5 N! V' d/ Z2 c$ L
col_means_train <- attr(train_data, "scaled:center")
2 U9 q; r% L0 Lcol_stddevs_train <- attr(train_data, "scaled:scale")! D; j1 O' @* \
test_data <- scale(test_data, center = col_means_train, scale = col_stddevs_train)
- r" h! e+ a9 `& ?5 q5 c) [& Q6 \- t: _
3. 构建网络创建模型
" C* r3 P: K( p7 \0 c0 \: p) `& Lbuild_model <- function() {+ O: ` B" M7 B' k/ n- f0 `3 ]2 I0 ^
9 I3 ?% K1 p7 N& I9 ?4 v" H model <- keras_model_sequential() %>%' q T1 w8 B/ W7 F
layer_dense(units = 64, activation = "relu",( y: x# E$ n2 k3 v
input_shape = dim(train_data)[2]) %>%6 e/ B4 z9 C, a1 W$ q8 g; k- d
layer_dense(units = 64, activation = "relu") %>%9 P4 G3 X- m5 y6 S* M
layer_dense(units = 1)" M6 Z g7 G1 `3 W$ V2 K8 r
0 r$ H: s* x0 r" N
model %>% compile(5 U& h# n# R. I: V% M
loss = "mse",+ d- G( n O. R- J$ h% P
optimizer = optimizer_rmsprop(),, e" k; k/ B, i2 I5 g
metrics = list("mean_absolute_error")
# Q+ I5 `) G$ s# [4 O( w$ | )6 p1 j/ N/ i j
$ R+ n' o) z2 e2 O model9 B( |! B+ w- i# T
}
1 N9 L5 O( f* I) L9 P
) g( _1 r; A; D& Amodel <- build_model()
! \9 ~' z. `2 W6 ^1 F) Xmodel %>% summary()0 V' N4 q" m2 p7 P. s0 m
: s* d! f+ w( d
网络的最后一层只有一个单元,没有激活,是一个线性函数。这是标量回归(标量回归是预测单一连续值得回归)得典型设置。添加激活函数将会限制输出范围。 4. 训练模型) D7 V* n C$ [/ Y1 T m. v% d' C% j
# Display training progress by printing a single dot for each completed epoch.
7 h- S; v& c5 tprint_dot_callback <- callback_lambda(! G2 Z* _0 p0 m" N4 a
on_epoch_end = function(epoch, logs) {6 v# @! d( B5 j; e. A
if (epoch %% 80 == 0) cat("\n")' W: M8 K3 r. z2 }8 A- _; z
cat(".")
4 B8 t! g2 H, K' Y. D }/ B8 B. J/ ?5 i& N
)
$ ~2 V) U% }: W7 O; C: J1 ?( G2 X) R6 o# i- i. U" P1 [* f
epochs <- 500
3 E4 I% v9 g* ^9 C [# o5 }" V: W, Q! g
# Fit the model and store training stats$ w4 _/ M4 W' S2 r! L) m5 Q4 t
history <- model %>% fit(
0 C$ b U3 A7 f$ m train_data,
" i% F% J. Z, U/ G) F2 X train_labels,
# E9 i; U, s" [ epochs = epochs,
8 o% w$ {$ b) O# E3 R+ l8 { U' N validation_split = 0.2,0 X+ ?2 d4 D+ d+ t: w
verbose = 0,/ b( [( @# i9 I
callbacks = list(print_dot_callback)& Y4 ~" @; Q! m8 G
)+ ]+ m4 @: k+ ?3 C/ R. E: ~
7 B- I; ~1 W+ v! p8 j, Clibrary(ggplot2)6 S, f* l; D* P7 _( N
1 m7 w$ {! B( q1 r' _
plot(history, metrics = "mean_absolute_error", smooth = FALSE) +3 L9 G2 G* ^" u/ i+ ]
coord_cartesian(ylim = c(0, 5))- z7 t' `# s# X4 Q
# q* t0 |2 ?3 N; g3 Y" M * \8 B1 H/ D9 G# V& a5 _
' x0 K* h( k) c: A
小结- r9 [! N$ s: G: F/ N
1)回归常用的损失函数是均方误差(MSE)。* E s# X; x0 Y6 y. \4 R t" Y4 ?0 L
2)常见的回归指标是平均绝对误差(MAE)。' C7 {& s- N: V7 D* w4 C
3)如果输入数据的特征具有不同的取值范围,应该先进行预处理,对每个特征单独进行缩放。) N( f) S. S/ n$ c }
4)如果可用训练数据很少,最好使用隐藏层较少(通常只有1~2个)的小型网络,以避免严重的过拟合。+ s% J7 e" ?% M, t; X$ j' i
0 F; I$ M0 A. X6 V4 A3 ^+ E3 E( o! s# Y- N: s. Q$ P
; N5 f3 v4 z# w7 R% [2 Q3 L: }$ B8 } |