QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 4016|回复: 0
打印 上一主题 下一主题

预测房价:回归问题——R语言

[复制链接]
字体大小: 正常 放大

1178

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2023-7-31 10:17
  • 签到天数: 198 天

    [LV.7]常住居民III

    自我介绍
    数学中国浅夏
    跳转到指定楼层
    1#
    发表于 2021-10-29 10:50 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    预测房价:回归问题——R语言; v( z" K; T% m) V% p+ a5 L( }
    在回归问题中,我们的目标是预测连续值的输出,如价格或概率。将此与分类问题进行对比,分类的目标是预测离散标签(例如,图片包含苹果或橙色)。
    5 n: h7 q4 I6 P- L* Z8 G  r
    2 D( B* _7 m  I) v2 F2 ?+ N) |* ]问题描述
    # _$ t, [8 c+ I& p我们将要预测20世纪70年代中期波士顿郊区房屋价格的中位数,已知当时郊区的一些数据点,比如犯罪率、当地房产税率等。9 f9 j. u( G# w" W' k; F
    本次用到的数据集包含的数据点相对较少,只有506个,分为404个训练样本和102个测试样本。输入数据的每个特征(比如犯罪率)都有不同的取值范围。例如,有些特征是比例,取值范围0 ~ 1;有的取值范围为1 ~ 12;还有的取值范围0 ~ 100,等等。! Y- a* @4 Q) h! E3 q; G+ o) F
    数据特征:' D# {: m8 v% M* y
    人均犯罪率。
      B$ s) d; A7 k1 Q占地面积超过25,000平方英尺的住宅用地比例。7 ?4 w5 G9 z7 K1 u6 ~5 b3 i
    每个城镇非零售业务的比例。* W" n9 J1 B3 d7 x  n$ Z# g
    Charles River虚拟变量(如果管道限制河流则= 1;否则为0)。& K5 {5 b: [% F6 t$ d0 g$ F
    一氧化氮浓度(每千万份)。
    & m" C% L5 ]1 h* ]: R& I每栋住宅的平均房间数。
    3 L3 K0 w; m2 |% U" `* h1940年以前建造的自住单位比例。3 g& @+ L" Y* k% d. F0 X9 m, E; }
    到波士顿五个就业中心的加权距离。" ?) }3 r1 A/ z7 W- ?+ h$ Q# l
    径向高速公路的可达性指数。1 _4 \6 Z/ R- K5 R8 p0 H
    每10,000美元的全额物业税率。% j; G2 i3 x6 y! X
    城镇的学生与教师比例。
    9 Z7 q3 d7 {6 m( c" J9 t" x+ W1000 (Bk - 0.63)* 2其中Bk是城镇黑人的比例。
    ( `, h# [* Q& C9 v5 K人口比例较低的百分比。/ [& t5 }' _1 q, a6 N( V: ]1 C# o
    1. 加载波士顿房价数据( S$ B) F+ Z+ [1 \  e* h" @3 n
    library(keras)0 ?( F6 P$ @1 g
    , ?- s% g( D# Q# ?$ g( |3 {
    boston_housing <- dataset_boston_housing()
    % }" d+ H2 }! C9 `" h* o. K) D; L: j0 M
    c(train_data, train_labels) %<-% boston_housing$train% l3 c  Q0 q* B. Y
    c(test_data, test_labels) %<-% boston_housing$test
    8 @- b" p0 j+ ?; P. B# J; k# E4 y$ i

    每个样本有13个数值特征,目标是房屋价格的中位数,单位千美元。

    2. 准备数据

    数据标准化

    将取值范围差异很大的数据输入到神经网络中,这是有问题的。网络可能会自适应这种取值范围不同的数据,但学习肯定变得更加苦难。对于这种数据,普遍采用的最佳实践是对每个特征做标准化。


    ; `* A3 x! \$ @" v1 t- E' Y3 J# Test data is *not* used when calculating the mean and std.
    + `3 n  a- x, `& b0 R+ n5 ~- F) w7 f. w( x) p2 O
    # Normalize training data8 W) k9 P) Y6 [9 I5 `4 B
    train_data <- scale(train_data) , g* c2 r( c$ R* c% H# O
    ( e* d+ M# S. U: ?
    # Use means and standard deviations from training set to normalize test set
    . S% R% x4 u: f5 Pcol_means_train <- attr(train_data, "scaled:center")
    8 k0 |  T/ ~, j- ]8 m3 _6 ecol_stddevs_train <- attr(train_data, "scaled:scale")
    ! D( w$ Q& i7 P4 s  h! Dtest_data <- scale(test_data, center = col_means_train, scale = col_stddevs_train)5 n0 y1 @. v3 `$ L" c) I, Y
    / `, a4 W1 F- n' c8 s/ Q& D
    3. 构建网络

    创建模型


      H! C, @) }1 V! d: W. \build_model <- function() {, U  w6 U9 ~- z4 J- ]* A4 C3 x

    ( Z& M: W* r& M  model <- keras_model_sequential() %>%* {' n* ?) q; t1 {; O
        layer_dense(units = 64, activation = "relu",0 s4 z3 Z4 L" H- a
                    input_shape = dim(train_data)[2]) %>%$ R: Q2 b1 ~* }# E1 T0 e2 g
        layer_dense(units = 64, activation = "relu") %>%
    . S7 K1 d" ?8 z6 ]    layer_dense(units = 1)
    1 m% h! \: S+ R8 n2 B0 B9 n! ^+ b$ G! ^, m7 _/ Y8 z8 j! o
      model %>% compile(" g; [) y- ]: C7 P* \1 e/ L3 q
        loss = "mse",
    0 R: }% `& \5 Y3 J! a    optimizer = optimizer_rmsprop(),
    3 Z0 s: {0 [6 y5 e, [7 K! D1 _    metrics = list("mean_absolute_error")
    ( @" F& X* `: \3 Q. b2 z* ^- p3 k; \  )
    ( U$ e$ ^% P! p/ G2 o5 f5 O5 ?0 H7 R5 x5 T: n* n
      model3 X5 }! v8 J; [% i8 \
    }. X+ A; ]0 z$ H  P
    8 b! P: v( \- k$ U
    model <- build_model()
    8 a- W6 B& J2 i/ u$ \model %>% summary()
    : C9 y0 w3 j$ I) U) o5 }
    9 J$ Y( g' Q: ]7 i/ b' e# {7 W

    网络的最后一层只有一个单元,没有激活,是一个线性函数。这是标量回归(标量回归是预测单一连续值得回归)得典型设置。添加激活函数将会限制输出范围。

    4. 训练模型+ `6 o/ f( t! J1 V
    # Display training progress by printing a single dot for each completed epoch.
    5 }! w; }5 |; Oprint_dot_callback <- callback_lambda(
    ; O# J. H- h7 Y, F) p  on_epoch_end = function(epoch, logs) {3 J, k1 E! B7 y1 F) Z5 V/ P
        if (epoch %% 80 == 0) cat("\n")
    / w9 \# ?/ V) B9 W7 L' U% d    cat(".")
    " ^+ o3 V7 W5 ^) J  }
    / k& f5 e) f; u: j/ M9 p* ?)    2 V) Y1 Y8 T: q( {5 k
    6 [+ X) K5 M. u- d
    epochs <- 500) ~9 U* Y/ g$ o% ?3 N; d: M
    4 k& {3 d: q1 A$ s
    # Fit the model and store training stats
    1 t) q" Y' Y" \% Q& ~" shistory <- model %>% fit(
    ) V" v4 T0 h7 b7 J  @/ @2 t4 w( C  train_data,
    4 [! R! U) f" W7 O5 f) y8 f2 P  train_labels,
    ( i1 L. G8 J7 p7 B5 Q  epochs = epochs,. n' g  H4 _$ [, e
      validation_split = 0.2,: u* a5 K& a$ M5 }6 }
      verbose = 0,( G9 h) R+ G8 A& v+ A+ G
      callbacks = list(print_dot_callback)
    " _' G5 L9 Z  O: D)
    # x$ G0 K5 }$ w6 e2 \
    6 l: {7 y+ {( W; m9 x, M( Zlibrary(ggplot2)
    5 \4 T6 I- \- ]' u$ u3 h6 a. s3 F* E" D
    plot(history, metrics = "mean_absolute_error", smooth = FALSE) +9 ]6 B! R7 M+ T; p( `& d) v
      coord_cartesian(ylim = c(0, 5))
    ( z9 K) D5 P$ ~; ?/ Y& \! L: R
    ! W& E4 U( W& t1 J# O5 E8 `9 A1 G& \1 w2 U1 h9 Z
    5 S2 k6 {8 b1 S+ M
    小结
    $ b& `1 s% m- r* ?6 r0 |1)回归常用的损失函数是均方误差(MSE)。- \0 a& ~9 @% b. b. o
    2)常见的回归指标是平均绝对误差(MAE)。  M) g9 x& J3 y
    3)如果输入数据的特征具有不同的取值范围,应该先进行预处理,对每个特征单独进行缩放。
    2 ^& |$ f; f/ B( H$ U4)如果可用训练数据很少,最好使用隐藏层较少(通常只有1~2个)的小型网络,以避免严重的过拟合。; e) \; h! V- _. z% Q) A( f

    . K6 m7 @$ b! ]5 z! X3 R% Z& o
      g" f0 ^% {2 V! N) C. Y8 ~+ D0 U7 m4 l0 M. g2 D) q5 V- n
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-5-1 07:59 , Processed in 0.980139 second(s), 51 queries .

    回顶部