QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 4008|回复: 0
打印 上一主题 下一主题

预测房价:回归问题——R语言

[复制链接]
字体大小: 正常 放大

1178

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2023-7-31 10:17
  • 签到天数: 198 天

    [LV.7]常住居民III

    自我介绍
    数学中国浅夏
    跳转到指定楼层
    1#
    发表于 2021-10-29 10:50 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    预测房价:回归问题——R语言
    - y' B" P+ a; v4 R8 v  @: g在回归问题中,我们的目标是预测连续值的输出,如价格或概率。将此与分类问题进行对比,分类的目标是预测离散标签(例如,图片包含苹果或橙色)。
    : N. C  L4 s4 L% T
    $ f1 ^9 n5 O% F2 Y! X1 U问题描述: D" H7 e; M# v3 `" g# L. |
    我们将要预测20世纪70年代中期波士顿郊区房屋价格的中位数,已知当时郊区的一些数据点,比如犯罪率、当地房产税率等。
    6 I2 H* X3 z* L/ H本次用到的数据集包含的数据点相对较少,只有506个,分为404个训练样本和102个测试样本。输入数据的每个特征(比如犯罪率)都有不同的取值范围。例如,有些特征是比例,取值范围0 ~ 1;有的取值范围为1 ~ 12;还有的取值范围0 ~ 100,等等。
    ! l8 S! I4 w5 Q; E/ _) U3 p3 r. q数据特征:5 w. l3 n" H# W/ G5 W5 L/ j
    人均犯罪率。3 \2 `* l8 p& J& [' K9 g! |
    占地面积超过25,000平方英尺的住宅用地比例。
    7 o) T$ c" U& O4 P( x3 v每个城镇非零售业务的比例。" L" U  k0 ^: A: H8 j% ?; M4 J+ _
    Charles River虚拟变量(如果管道限制河流则= 1;否则为0)。
    1 H/ O9 R! x: p一氧化氮浓度(每千万份)。& g# y  f% q  o) u
    每栋住宅的平均房间数。
    8 J) ]7 U" A" l/ ^* u$ ?% }7 \  [  l$ n1940年以前建造的自住单位比例。$ M. p& ~4 ?! x1 q. Y) {2 d% P9 o
    到波士顿五个就业中心的加权距离。3 r! R' X) v& D7 a( ?% E& I
    径向高速公路的可达性指数。/ }; e1 ^2 v5 A0 R# `6 H
    每10,000美元的全额物业税率。9 v, I9 o) j* p1 w" z
    城镇的学生与教师比例。( ]7 D8 i2 I  r+ O0 k
    1000 (Bk - 0.63)* 2其中Bk是城镇黑人的比例。
    & w5 e' Y# z) S  O8 X  S人口比例较低的百分比。! R* {- q  \  r* O8 {% {: C$ i
    1. 加载波士顿房价数据6 _5 ~; k* l( I2 P
    library(keras)
    ) \/ R( }6 {0 l; Z% ~1 }, j9 a$ y5 Q( S1 i) Q
    boston_housing <- dataset_boston_housing()) o2 m2 ~7 K# Z) ?) z

    9 R2 g2 V7 J/ H# z1 u# D  {: \c(train_data, train_labels) %<-% boston_housing$train  D2 A0 _% O# a) x9 U  k* p' ^
    c(test_data, test_labels) %<-% boston_housing$test& q7 A- U% \2 ~( S7 t7 u

    2 I; [% [+ f* m8 l2 c

    每个样本有13个数值特征,目标是房屋价格的中位数,单位千美元。

    2. 准备数据

    数据标准化

    将取值范围差异很大的数据输入到神经网络中,这是有问题的。网络可能会自适应这种取值范围不同的数据,但学习肯定变得更加苦难。对于这种数据,普遍采用的最佳实践是对每个特征做标准化。

    & W& N  R# Z7 ]9 x& f' g
    # Test data is *not* used when calculating the mean and std.
    7 O, V! @  C) p: z' R
    7 g! X7 o. c& |( J( E0 y- A# Normalize training data
    # N# }' D0 Y* i# q  R: strain_data <- scale(train_data)
    : s: }& m1 Y. n8 r% C( r: e) X/ t! m8 ^. W2 r! R9 b' U
    # Use means and standard deviations from training set to normalize test set) F3 L; `- u: D  N% R
    col_means_train <- attr(train_data, "scaled:center") 3 z$ `* I% z8 J' h9 V
    col_stddevs_train <- attr(train_data, "scaled:scale")
    % b6 e  m+ |5 b/ N4 y8 w/ Ptest_data <- scale(test_data, center = col_means_train, scale = col_stddevs_train)
    0 m4 B9 i- ~/ z
    9 i; J- r$ t7 J  ?3. 构建网络

    创建模型

    + H9 r7 d% @$ K& r' [) U( A
    build_model <- function() {
    . B: s2 O% l1 q3 z* g
    * ~+ W% Q) h0 F% K  model <- keras_model_sequential() %>%
    + e1 N. F+ J: z- J    layer_dense(units = 64, activation = "relu",- L" i0 |6 Z4 u* |4 r3 \) @! P
                    input_shape = dim(train_data)[2]) %>%
    / ~  m! ?9 j0 M6 Y9 a  y: W    layer_dense(units = 64, activation = "relu") %>%6 ~0 F8 z0 y0 N1 j% M/ L
        layer_dense(units = 1)
    . E) r$ C8 ?) B6 S* V5 c4 ]: a- v
      model %>% compile(1 Q0 @0 |; ?' s
        loss = "mse",
    2 {) V+ t( M( z6 v, ]    optimizer = optimizer_rmsprop(),
    : A1 c5 X  e3 v    metrics = list("mean_absolute_error"). `7 F) B  B# L, K
      )9 f7 h  \' Z. o0 B- K

    9 U6 F3 o, Z- D/ c/ G  model2 j  i6 D' L2 a2 [# I' H6 w0 i2 \
    }6 @& X/ e2 G* p$ p8 o
    ) j! n' R5 M, p# s$ H' p9 @5 R
    model <- build_model()
    5 l% j& [% R% X* H( O4 ]6 kmodel %>% summary()
    $ x, R' W7 U7 J1 v- l! F6 {4 P7 \2 D3 k/ q2 R. T3 P; B

    网络的最后一层只有一个单元,没有激活,是一个线性函数。这是标量回归(标量回归是预测单一连续值得回归)得典型设置。添加激活函数将会限制输出范围。

    4. 训练模型
    + U$ u% s0 P/ \/ i6 z% e# Display training progress by printing a single dot for each completed epoch.
    7 f5 k2 q( [" s; mprint_dot_callback <- callback_lambda(
    5 D6 p* `2 ?7 r% n# _  on_epoch_end = function(epoch, logs) {$ R) |' h3 O  y5 U7 l5 k9 x$ Y
        if (epoch %% 80 == 0) cat("\n"); I! |, z# X# c/ J# l: }- d& p" @; L/ A
        cat(".")
    6 X7 _5 `) [: \- k5 B" }  }, r# l) a5 a) h" y  ?$ z
    )   
    . N4 I: P5 L! E- k2 s
    " G: D# f) _; `1 G, D% H8 J; J0 Tepochs <- 500' R& g: P1 F0 X( `) i

    6 F# N/ |; {/ B# Fit the model and store training stats
    : P  b2 T2 ?6 I6 g3 d0 Shistory <- model %>% fit(
    * Q. }) H5 v* c" u4 O  train_data,! m" Y1 n5 k2 h
      train_labels,
    6 E; L5 j$ B3 P( I  epochs = epochs,
    : X7 [$ x$ X9 E. i  validation_split = 0.2,3 Y  o6 r# a/ a2 m8 z. E6 ]2 P
      verbose = 0,  T& ~1 s3 H! ^  f' R+ h8 E
      callbacks = list(print_dot_callback)
    $ A% \* Z6 @- K; o7 N2 S5 E- m)3 J. t8 \! J) l# Y

    ) G( L1 E, f. A, w6 ]  c8 j) v9 ?library(ggplot2)
    " U9 F$ @  V, Z) [, i/ }) t- v7 {' ~; f& C% o" F2 w, t
    plot(history, metrics = "mean_absolute_error", smooth = FALSE) +
    % l/ m9 w* E$ ~4 d" H8 o  coord_cartesian(ylim = c(0, 5))' ^8 Q+ p% s1 @) u, p* Q9 ~

    % q5 I) Y5 t/ u' l$ R
    , q+ a& U5 J2 d1 a: F! q9 q$ ]" t) E! @5 J- w% T, P
    小结( _+ b8 r8 B2 P. G/ r4 T- K0 E$ K# @
    1)回归常用的损失函数是均方误差(MSE)。
    2 R% Q7 [  ?- C) L5 u2)常见的回归指标是平均绝对误差(MAE)。7 R7 Q- |7 W& Q7 N9 ]2 t
    3)如果输入数据的特征具有不同的取值范围,应该先进行预处理,对每个特征单独进行缩放。3 W8 x% `2 k+ J% i* d  |
    4)如果可用训练数据很少,最好使用隐藏层较少(通常只有1~2个)的小型网络,以避免严重的过拟合。
    : Y4 X7 p: A( C( m) F$ Z( A5 P& N3 u7 t0 g2 j
    ( O. L) H  O( [, f0 `
    5 T) A2 O/ i0 Q6 I
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-16 11:22 , Processed in 4.796877 second(s), 51 queries .

    回顶部