QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3632|回复: 0
打印 上一主题 下一主题

预测房价:回归问题——R语言

[复制链接]
字体大小: 正常 放大

1178

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2023-7-31 10:17
  • 签到天数: 198 天

    [LV.7]常住居民III

    自我介绍
    数学中国浅夏
    跳转到指定楼层
    1#
    发表于 2021-10-29 10:50 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    预测房价:回归问题——R语言; D7 s/ H' t4 ~8 }* s2 X+ K
    在回归问题中,我们的目标是预测连续值的输出,如价格或概率。将此与分类问题进行对比,分类的目标是预测离散标签(例如,图片包含苹果或橙色)。
    2 z  z/ H6 q1 P3 }8 }/ x- g- l* q
    * U7 b; N' X3 D  z+ g8 `# a问题描述
    $ \5 }4 o  {( w5 X0 Y我们将要预测20世纪70年代中期波士顿郊区房屋价格的中位数,已知当时郊区的一些数据点,比如犯罪率、当地房产税率等。( K; p* l4 m) m" w: T7 P
    本次用到的数据集包含的数据点相对较少,只有506个,分为404个训练样本和102个测试样本。输入数据的每个特征(比如犯罪率)都有不同的取值范围。例如,有些特征是比例,取值范围0 ~ 1;有的取值范围为1 ~ 12;还有的取值范围0 ~ 100,等等。8 b/ G9 A3 G8 W
    数据特征:& P1 i' p' R* K* @& {$ R
    人均犯罪率。
    , m6 g3 [. e/ c3 r( _' E占地面积超过25,000平方英尺的住宅用地比例。. \$ x8 V5 ?2 s$ o4 W* Y- C- J$ }  l
    每个城镇非零售业务的比例。
    $ v" U! a9 S% `1 e/ FCharles River虚拟变量(如果管道限制河流则= 1;否则为0)。7 ?5 B$ u9 H% k; M9 \% n) q0 z
    一氧化氮浓度(每千万份)。# i- F/ O. \! @. }$ E( D2 c
    每栋住宅的平均房间数。
    5 h! H0 y+ q- w1940年以前建造的自住单位比例。" X- r8 `7 F/ r, q) }; s, U
    到波士顿五个就业中心的加权距离。& G- A- d+ o" m  y9 G3 E
    径向高速公路的可达性指数。
    1 g7 q/ V: [0 ]% J- }: l: N每10,000美元的全额物业税率。' h3 @5 |: ?5 R3 K( C. j* O
    城镇的学生与教师比例。
    " K. H' m- d: V' b, g* x1000 (Bk - 0.63)* 2其中Bk是城镇黑人的比例。
    : [1 x! p5 o0 h- }) ]1 a: i' @人口比例较低的百分比。$ ^2 ~. ?/ t4 c- m/ n4 P
    1. 加载波士顿房价数据& P: G1 [% X2 S3 w# O
    library(keras), c+ P- Q# e/ O/ R; n  w
    # t( g) Y0 b, h+ K* ?* v+ Q
    boston_housing <- dataset_boston_housing()  t, ?2 W. P9 d8 n+ Y: ^

    % z% g% L4 p* r2 c! G  ]5 wc(train_data, train_labels) %<-% boston_housing$train+ D9 J# Q" Z6 t. K6 g: b4 D. x0 l
    c(test_data, test_labels) %<-% boston_housing$test
    0 |6 G2 F3 B- N4 p, d6 O
    ; P6 W/ q/ [$ h+ c) @% y3 d

    每个样本有13个数值特征,目标是房屋价格的中位数,单位千美元。

    2. 准备数据

    数据标准化

    将取值范围差异很大的数据输入到神经网络中,这是有问题的。网络可能会自适应这种取值范围不同的数据,但学习肯定变得更加苦难。对于这种数据,普遍采用的最佳实践是对每个特征做标准化。


    # t9 \# d; J9 j1 n( Y' m# Test data is *not* used when calculating the mean and std.
    8 D: w( h- B$ b# p! r6 \; \3 v
    & k) m8 ~" c! ?5 \2 H# Normalize training data2 [. @( a. d0 J9 F4 P% H5 C
    train_data <- scale(train_data)
    0 Z7 l  R6 T" C4 R. Z2 M. k6 a1 I& y. P. F: `
    # Use means and standard deviations from training set to normalize test set3 X5 _& ^& t1 H
    col_means_train <- attr(train_data, "scaled:center")
    9 x/ E. B, h  U( r! [& ~col_stddevs_train <- attr(train_data, "scaled:scale")
    . V2 x# [7 j) q+ jtest_data <- scale(test_data, center = col_means_train, scale = col_stddevs_train), J: n+ t! k. ]4 w  ?# {' J

    # a0 }" T- F1 i' X9 _/ s  n2 }3. 构建网络

    创建模型

    1 ^; I' R2 Y( o) K1 a: U( A
    build_model <- function() {$ n% I7 x1 w# E4 G! G
    : q1 G. D; {* N; f" X$ ~
      model <- keras_model_sequential() %>%
    + z8 E9 \4 r; `# ~8 E6 Z! W  \% q    layer_dense(units = 64, activation = "relu",7 E, d3 T% i* l' X: A" g. M
                    input_shape = dim(train_data)[2]) %>%6 S: A2 I" ^! U  E% k' b( s* l! P
        layer_dense(units = 64, activation = "relu") %>%, ?1 X, \' s  G  v- V
        layer_dense(units = 1)
    7 _7 p, O& K, C, H' l9 @) Y3 I2 t0 Z0 P9 R* k
      model %>% compile(
      o% T" A7 j" ~( k5 u$ M$ y' y    loss = "mse",
    . j8 o+ {6 K. K    optimizer = optimizer_rmsprop(),9 a. r& d, C# ]8 D% A' m7 v
        metrics = list("mean_absolute_error")" O6 T6 l& o7 p1 M( `6 A9 c# O
      )
    7 _" N# |$ j& d, a' y' Y) B/ N: H$ m9 R, D  x& e
      model+ L  J& X( z. ]; V$ l; \6 x8 w
    }9 S! t; V: H$ j

    9 P3 K4 e3 S7 `0 l" ?3 hmodel <- build_model()
    6 X; q' R9 e( I8 e& k- [& ?. J. umodel %>% summary()
    $ T5 D" O$ E1 S; L2 z
    ' I$ L8 m$ ^9 l" ^0 z0 W

    网络的最后一层只有一个单元,没有激活,是一个线性函数。这是标量回归(标量回归是预测单一连续值得回归)得典型设置。添加激活函数将会限制输出范围。

    4. 训练模型/ L6 `1 r' K9 I# j0 E
    # Display training progress by printing a single dot for each completed epoch.
    * r) U# S( s4 q0 {$ z* Nprint_dot_callback <- callback_lambda(5 P! x  f6 H& |0 l
      on_epoch_end = function(epoch, logs) {
    + p. U% ]; Y: \* S    if (epoch %% 80 == 0) cat("\n")# G$ u+ g# ~3 z# D% E1 F0 W) l/ {
        cat(".")- U0 P0 c: B% F' Y. Y  J3 ~+ T& y
      }+ r! [4 k5 Z6 W6 n8 I5 q! ?4 a( o+ m
    )   
    5 V$ A6 [# V; H& y  Q, _; r1 b% O4 _$ n2 y" w, X% i6 X7 N! p
    epochs <- 500
    & ]  j* j. }7 l( ^) ~& W
    6 v' {8 X; b' }$ ^, U  C# Fit the model and store training stats
    7 }; |2 O" u7 a6 f% n5 p! @history <- model %>% fit(, X* L1 Y6 h4 X* x7 a( E& E5 q
      train_data,
    4 }. F9 ?3 j3 K0 S# V5 ^6 K  train_labels,
    ' S0 c8 ~  y" R  epochs = epochs,
    - P" g' Z, m% u0 a  validation_split = 0.2,
    , ]: k! d2 a; w& e$ n( Z9 ^6 N7 n  verbose = 0,
    1 t( H6 Z3 n( g1 b7 A% D9 a8 a  callbacks = list(print_dot_callback)) q6 R' i5 _3 Y0 ~* B
    )
    / X/ e9 T* C6 e7 j; X' ?1 J, A5 N
    # n* X1 X  I. a. ~library(ggplot2)& ~" A6 q) O; u$ L2 h5 {, C

    ! w9 P9 F) E# w0 dplot(history, metrics = "mean_absolute_error", smooth = FALSE) +: h2 H( h4 x$ v. D: I/ v
      coord_cartesian(ylim = c(0, 5))* @! B5 @) y, }/ \

    ( i* ?7 `- _" h3 @+ P0 V1 q5 B
    " t: x) d1 ^/ p8 Y$ d) F3 X2 A3 B9 |0 M1 O
    小结. s1 G5 P$ u4 ^7 N. w& N0 s
    1)回归常用的损失函数是均方误差(MSE)。9 g( E+ E% H0 Y: {! e2 V
    2)常见的回归指标是平均绝对误差(MAE)。
    ) l$ l% M- d# \3)如果输入数据的特征具有不同的取值范围,应该先进行预处理,对每个特征单独进行缩放。  J# n; \1 c( j( g, q8 L8 o
    4)如果可用训练数据很少,最好使用隐藏层较少(通常只有1~2个)的小型网络,以避免严重的过拟合。, X. \1 g& ]4 d) c2 ?/ U

    ( x7 I* d8 W3 D7 o( R" N" ]9 G& {# I8 [7 \: K/ k) s
    " P  }' N% k7 Y. T" a
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-9-8 04:44 , Processed in 0.661869 second(s), 50 queries .

    回顶部