QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3478|回复: 0
打印 上一主题 下一主题

预测房价:回归问题——R语言

[复制链接]
字体大小: 正常 放大

1178

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2023-7-31 10:17
  • 签到天数: 198 天

    [LV.7]常住居民III

    自我介绍
    数学中国浅夏
    跳转到指定楼层
    1#
    发表于 2021-10-29 10:50 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    预测房价:回归问题——R语言6 V* D7 X4 z/ q7 G' j+ i2 S
    在回归问题中,我们的目标是预测连续值的输出,如价格或概率。将此与分类问题进行对比,分类的目标是预测离散标签(例如,图片包含苹果或橙色)。( @. V9 H# u  s6 ?7 u

    ; C) M- {. \6 x0 X2 F* p4 |问题描述
    " q2 d' N6 t& b1 k我们将要预测20世纪70年代中期波士顿郊区房屋价格的中位数,已知当时郊区的一些数据点,比如犯罪率、当地房产税率等。/ [4 G; R& X8 }& S+ \
    本次用到的数据集包含的数据点相对较少,只有506个,分为404个训练样本和102个测试样本。输入数据的每个特征(比如犯罪率)都有不同的取值范围。例如,有些特征是比例,取值范围0 ~ 1;有的取值范围为1 ~ 12;还有的取值范围0 ~ 100,等等。
    1 m, _% _6 m+ r数据特征:, H- ^: j( L0 J# Z1 z7 P
    人均犯罪率。
    " K6 S: M- m* H1 J2 q占地面积超过25,000平方英尺的住宅用地比例。# A; m  w/ S8 F6 l4 f" d
    每个城镇非零售业务的比例。
    & X  ?6 O4 O# c# ?Charles River虚拟变量(如果管道限制河流则= 1;否则为0)。
    0 m7 l6 `7 r2 x# h" G一氧化氮浓度(每千万份)。
    . h% G2 C' ]4 t  O3 \每栋住宅的平均房间数。8 e2 w: A' [! D, b
    1940年以前建造的自住单位比例。  b! x' ~& r; t
    到波士顿五个就业中心的加权距离。
    . q5 C# B% {/ [% S6 q/ Z5 d径向高速公路的可达性指数。
    / \& E( j7 K' ?% e每10,000美元的全额物业税率。; `- W2 P" F! {0 G* a" B( F9 j
    城镇的学生与教师比例。
    1 V- v+ o( L; {4 O3 K% }1000 (Bk - 0.63)* 2其中Bk是城镇黑人的比例。) W2 P1 N* k* B- e( D& P
    人口比例较低的百分比。
    + U7 |! D- v; E% Z1. 加载波士顿房价数据
    " G7 v( A0 L" ^/ _library(keras)
    0 S* j- D2 A, C+ _3 ?/ L3 t) B  P- e1 e( C, Z1 C
    boston_housing <- dataset_boston_housing()& o. q2 `( x" L9 [, C  D

    ' Q  p" S0 |: u9 R. ]c(train_data, train_labels) %<-% boston_housing$train3 p) b+ U9 j4 f# G) R+ B+ m2 P
    c(test_data, test_labels) %<-% boston_housing$test
    ! E: Z6 m( c6 v3 r0 y/ W! Y: S. {+ N% X: ~

    每个样本有13个数值特征,目标是房屋价格的中位数,单位千美元。

    2. 准备数据

    数据标准化

    将取值范围差异很大的数据输入到神经网络中,这是有问题的。网络可能会自适应这种取值范围不同的数据,但学习肯定变得更加苦难。对于这种数据,普遍采用的最佳实践是对每个特征做标准化。


    6 x, P! F/ l$ I, b. h8 _8 B6 x# Test data is *not* used when calculating the mean and std.% G  ?5 e; F. m3 s

    " f6 X2 q$ E& U4 H5 P! Y# Normalize training data/ e4 K/ O/ I7 w! Y3 {
    train_data <- scale(train_data) 3 F' g- j# f; l; O

    ' A: r& E% t# e% j4 f# Use means and standard deviations from training set to normalize test set
    : Q, a' ]  Q3 e6 d( f: U4 K: b- acol_means_train <- attr(train_data, "scaled:center") ; g8 b  m$ k# k3 g' k
    col_stddevs_train <- attr(train_data, "scaled:scale")
    4 u9 A$ R- p6 c+ d2 E3 D& Ntest_data <- scale(test_data, center = col_means_train, scale = col_stddevs_train)/ \2 L2 t# f) P) S+ q7 G& m

    8 l$ N' z8 ?/ D$ |- p4 v' U- q/ T3. 构建网络

    创建模型

    ; V( \8 k' f- `
    build_model <- function() {$ t5 E. |# ~9 K3 X, Z5 G4 s9 z* u" u

    $ S! l! f3 Z2 G  K* g  model <- keras_model_sequential() %>%
    ! |. `+ |4 @7 e$ i) N    layer_dense(units = 64, activation = "relu",$ W* E) C: |/ ^8 a' Y4 r" D; T; c8 z' v
                    input_shape = dim(train_data)[2]) %>%5 R$ G& B/ U& \
        layer_dense(units = 64, activation = "relu") %>%2 C6 e; [; ^  E' r0 {
        layer_dense(units = 1)/ h" u) n- }! K) V% `; D2 t

    & e4 N) H8 G( L1 b8 b) D  model %>% compile(# ]1 }  R+ x4 c' W- d9 }# l$ v1 R- `
        loss = "mse",% Z' p9 q. u' R* X6 f2 [) N; L
        optimizer = optimizer_rmsprop(),
    8 V# N- a5 L* ~. D- Z% B) v    metrics = list("mean_absolute_error")
    5 ?0 B: a! ^8 \/ O% s  )" f" {* H9 K6 W2 e4 B

      ]7 c4 t2 U& E, y  model5 \* @- q9 B) Q
    }/ ~' j  B( P* {. z. I  }

    / M8 N( t+ \; R) O9 U) Nmodel <- build_model()) F* e! l9 {+ w' I! B
    model %>% summary()
    & }  o& O# p5 D% Z( j' {" ?( N3 s

    网络的最后一层只有一个单元,没有激活,是一个线性函数。这是标量回归(标量回归是预测单一连续值得回归)得典型设置。添加激活函数将会限制输出范围。

    4. 训练模型2 h) i( H" f4 e9 W1 R2 e4 ?
    # Display training progress by printing a single dot for each completed epoch.
    5 Q9 ?+ O! L! A, Zprint_dot_callback <- callback_lambda(
    . p& t% E3 U" m/ {4 A  on_epoch_end = function(epoch, logs) {
    7 u/ }; X/ D* n- \    if (epoch %% 80 == 0) cat("\n")5 m, a8 E$ O" }: L3 t/ D* m% e  E. \! f
        cat(".")+ K& P+ x# N; c* U
      }
    9 F7 b* t% }7 t+ U1 J)   
    5 O0 m4 [) ]5 S2 g& u
    " u* ^( P! r. }6 Q$ `epochs <- 500& T3 h. N/ v9 O
      b3 M& t. x7 }9 q) C
    # Fit the model and store training stats
    $ H6 u( q+ O& e; X- J& U7 W' n5 Hhistory <- model %>% fit(
    ; M2 B  G# o/ E" F9 x  train_data,: Y( {; y+ }, _( ~' z. Z  k' V
      train_labels,
    % c$ k* {4 `/ \, y$ G0 P9 o  epochs = epochs,
    . p8 a& ~- }1 R& D2 _1 h  validation_split = 0.2,
    7 i' f$ h5 X- D) ?6 A0 R0 D  verbose = 0,
    ! C+ p( ^" @) m: O4 p. _& t8 c  callbacks = list(print_dot_callback); Q  p  n. z2 a  ?6 [; M, F
    )4 v% L% x6 }$ t; U  U& ]. \

    0 [( U  D8 p2 a: C' Q$ ~library(ggplot2)  c; ~2 I( Y% S7 _

    3 J8 ]' L' D# i, t9 p1 a- Xplot(history, metrics = "mean_absolute_error", smooth = FALSE) +
    " p8 ]5 s# O/ ]1 Q6 T2 o; M  coord_cartesian(ylim = c(0, 5))
    8 U- _8 H2 i4 M" o! L  }1 X
    " m9 ^" s3 j6 j3 ~5 ^8 Z+ t6 i. T; p

    1 j5 E: s5 u4 q小结
    + u: W7 i# H3 T8 Q1)回归常用的损失函数是均方误差(MSE)。7 ?8 d, S. z6 r1 b8 }/ W8 C; p
    2)常见的回归指标是平均绝对误差(MAE)。
    7 d6 G2 U% A' s" b0 B. r: A( K3)如果输入数据的特征具有不同的取值范围,应该先进行预处理,对每个特征单独进行缩放。7 l& D) Z: f! R1 a# h
    4)如果可用训练数据很少,最好使用隐藏层较少(通常只有1~2个)的小型网络,以避免严重的过拟合。
    , d* N0 a" y7 D2 G/ Z5 ~* h; y4 A$ E
    * Q8 z# ^/ ^( Q8 p2 M

    ' @5 P8 q; o5 x/ J
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-7-7 22:07 , Processed in 0.987529 second(s), 50 queries .

    回顶部