QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 4050|回复: 0
打印 上一主题 下一主题

预测房价:回归问题——R语言

[复制链接]
字体大小: 正常 放大

1178

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2023-7-31 10:17
  • 签到天数: 198 天

    [LV.7]常住居民III

    自我介绍
    数学中国浅夏
    跳转到指定楼层
    1#
    发表于 2021-10-29 10:50 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    预测房价:回归问题——R语言
    + s( S7 _$ ?$ g; Q4 `在回归问题中,我们的目标是预测连续值的输出,如价格或概率。将此与分类问题进行对比,分类的目标是预测离散标签(例如,图片包含苹果或橙色)。
    % j% p$ A5 h9 J- u9 J# ?9 ?, s' X- C3 q9 U, v: j0 F
    问题描述
    + @: N8 f  d% v3 o: ?9 c8 W我们将要预测20世纪70年代中期波士顿郊区房屋价格的中位数,已知当时郊区的一些数据点,比如犯罪率、当地房产税率等。; t! Q5 E# Q3 }" [0 k
    本次用到的数据集包含的数据点相对较少,只有506个,分为404个训练样本和102个测试样本。输入数据的每个特征(比如犯罪率)都有不同的取值范围。例如,有些特征是比例,取值范围0 ~ 1;有的取值范围为1 ~ 12;还有的取值范围0 ~ 100,等等。
    6 W2 \; m7 g9 d数据特征:
    : O' }" m: }: x* V* W8 x人均犯罪率。
    % y+ v  D/ ^0 i% d1 m占地面积超过25,000平方英尺的住宅用地比例。8 u8 ~) F/ m- q1 e3 N/ h
    每个城镇非零售业务的比例。  m0 i3 c9 `7 S1 h
    Charles River虚拟变量(如果管道限制河流则= 1;否则为0)。% P" G! @* m3 m4 K1 H+ `$ _/ x4 D
    一氧化氮浓度(每千万份)。- X* s. ~% O" Z9 n
    每栋住宅的平均房间数。
    4 b8 p+ f  _4 D, _; w1940年以前建造的自住单位比例。
    . O% _" p; K5 n  o到波士顿五个就业中心的加权距离。
    + Q, P9 s6 p3 [径向高速公路的可达性指数。
    , N/ ~% l: B: }每10,000美元的全额物业税率。* G& N2 [- B) J/ w$ X
    城镇的学生与教师比例。* K* e5 ^1 Z! Y) I% k8 ~' @% G
    1000 (Bk - 0.63)* 2其中Bk是城镇黑人的比例。9 ^" R0 e) b# l
    人口比例较低的百分比。) U+ o/ L, S: j: @2 k
    1. 加载波士顿房价数据
    * G8 y0 |3 E" i; f! e9 glibrary(keras)
    6 k) |/ @! M- _- H1 O3 f7 {# @9 A  N; T8 U5 P/ i
    boston_housing <- dataset_boston_housing()( G0 _( c: \0 L1 V! Z6 z

    & c8 P( H& K9 p4 ~/ ec(train_data, train_labels) %<-% boston_housing$train$ F# Q9 i9 G0 \4 B9 _. D
    c(test_data, test_labels) %<-% boston_housing$test! `& q( v) @2 x2 V

    & m, C5 m$ R2 N) I: e

    每个样本有13个数值特征,目标是房屋价格的中位数,单位千美元。

    2. 准备数据

    数据标准化

    将取值范围差异很大的数据输入到神经网络中,这是有问题的。网络可能会自适应这种取值范围不同的数据,但学习肯定变得更加苦难。对于这种数据,普遍采用的最佳实践是对每个特征做标准化。


    7 N% @6 H0 q2 h* d( g& E1 P4 X, d4 B# Test data is *not* used when calculating the mean and std.
    # Z% ^/ D. W+ f! P% s
    ; h: ^' Y0 |6 ?' @: K0 I# Normalize training data' T5 `4 e4 j0 G3 p' \# M9 O7 |" y
    train_data <- scale(train_data) 7 D- B1 [0 a1 F, ^
    " j- I9 e; }6 a
    # Use means and standard deviations from training set to normalize test set9 M" B  u' X- t$ D; H6 B
    col_means_train <- attr(train_data, "scaled:center")
    + h/ f9 {! Y' _- q4 u2 xcol_stddevs_train <- attr(train_data, "scaled:scale")
    ) Q! J% \; v5 T0 Y" r$ w1 f' g- Ntest_data <- scale(test_data, center = col_means_train, scale = col_stddevs_train)
    9 l7 w0 J1 n- Z& H: H; T* ~8 [8 Y+ ]1 ?, U/ h5 Y$ R2 c- @
    3. 构建网络

    创建模型

    : W5 n. ?& X$ w; L
    build_model <- function() {
    3 t8 A8 Q' z5 K" y8 y6 P% R& W3 f
      model <- keras_model_sequential() %>%. |: q+ J; M* O- z
        layer_dense(units = 64, activation = "relu",
    ) C# Y/ ^7 F) r! r                input_shape = dim(train_data)[2]) %>%9 ~* m+ M0 K8 F0 E+ _
        layer_dense(units = 64, activation = "relu") %>%% V/ o* M5 z/ q& Z) c. h+ P, d8 m
        layer_dense(units = 1)( K3 K, i9 D6 |: Y9 C0 b

    ' \/ x. p$ K' e# v& z/ B  model %>% compile(
    + ~- f. c+ [  Y1 q5 K9 H/ x; V    loss = "mse",
    - k/ G' |7 i( d/ A1 |1 H# G8 Q    optimizer = optimizer_rmsprop(),& I& G2 x* M. F2 x
        metrics = list("mean_absolute_error")' A, |& v: w# Z
      )
    0 Q2 y  [9 a9 I3 K/ N
    $ {$ M4 Q+ u# y% p% @4 w  model" k& F/ P. t/ D, R
    }6 J8 c9 c  X+ B4 c

    0 N" t  j* Y1 r4 P  `  gmodel <- build_model()
    : W, t3 d# n" Dmodel %>% summary()
    " ~2 g2 l4 s1 P' j7 D7 C8 ]$ D8 ~: u& y' q- R8 ^! Q

    网络的最后一层只有一个单元,没有激活,是一个线性函数。这是标量回归(标量回归是预测单一连续值得回归)得典型设置。添加激活函数将会限制输出范围。

    4. 训练模型
    2 P0 S2 L6 C  J6 _, c# Display training progress by printing a single dot for each completed epoch.
    $ H5 R4 d" q5 m; zprint_dot_callback <- callback_lambda(
    9 t- _% a; B' G  on_epoch_end = function(epoch, logs) {
    0 {% a6 F$ z0 ^# ^    if (epoch %% 80 == 0) cat("\n")
    0 o  V$ O- H) v7 t    cat(".")
    , q+ ^; K1 u% j4 `* t! T; t& S0 R  }
    ! ?; [1 H; E1 k)    ' k; b5 F1 C  N: s  i3 s

    9 }9 ]) ?. ^: Q9 K! T1 Wepochs <- 500
      ^0 E& M, k' M
    8 X) D9 |% b$ s- z% V* @0 ^# Fit the model and store training stats5 ~, e5 T. b3 {/ t3 q
    history <- model %>% fit(1 t5 y! j! t' y, V' s: d3 ?% z+ m
      train_data,, ~! M- x. i" @* H% e
      train_labels,0 {( O. I/ i+ K8 ]/ Z9 \5 c
      epochs = epochs,3 {2 M' y$ n4 O+ |
      validation_split = 0.2,3 ~5 @0 V( ^: o+ ~, ]7 u, [2 L/ P
      verbose = 0,
    0 h5 h6 n% Q  d  callbacks = list(print_dot_callback): U: N" t7 I* Z. N% R* O( ~* R
    )# k$ N9 I) A; s$ j' R$ t3 `! c. o
    " O5 u1 i; e" f
    library(ggplot2)
    & W% A5 G1 N9 G$ Y$ s4 A! q) z2 ?. ^- y' ?+ [" S. m2 D
    plot(history, metrics = "mean_absolute_error", smooth = FALSE) +; G; y, V. e& ]- Y/ }
      coord_cartesian(ylim = c(0, 5))0 C; V$ S2 W6 j8 o: f7 ~$ p! _
    2 t" y) c6 I  U( x3 V

    . j( q$ K' S9 g( i# w2 \' m
    ; S1 I/ j+ e& J; a4 O小结  ^" @; q- e+ ~. L% i1 F
    1)回归常用的损失函数是均方误差(MSE)。8 \/ a8 S! b' c/ R9 D, G+ R0 I
    2)常见的回归指标是平均绝对误差(MAE)。
    9 G7 f9 m8 p8 K- `- Y0 W' @3)如果输入数据的特征具有不同的取值范围,应该先进行预处理,对每个特征单独进行缩放。6 d- k2 l& @( N+ d
    4)如果可用训练数据很少,最好使用隐藏层较少(通常只有1~2个)的小型网络,以避免严重的过拟合。
    ( p8 _/ ?# E# z5 b5 E8 O
    / h6 K* q9 r; P2 b, x4 @+ ~" k6 w( T# Q8 m5 C

    , {$ K3 s. I+ n2 ?
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-4 05:57 , Processed in 0.431783 second(s), 51 queries .

    回顶部