QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3642|回复: 0
打印 上一主题 下一主题

预测房价:回归问题——R语言

[复制链接]
字体大小: 正常 放大

1178

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2023-7-31 10:17
  • 签到天数: 198 天

    [LV.7]常住居民III

    自我介绍
    数学中国浅夏
    跳转到指定楼层
    1#
    发表于 2021-10-29 10:50 |只看该作者 |正序浏览
    |招呼Ta 关注Ta
    预测房价:回归问题——R语言. P1 u; p9 P2 m
    在回归问题中,我们的目标是预测连续值的输出,如价格或概率。将此与分类问题进行对比,分类的目标是预测离散标签(例如,图片包含苹果或橙色)。
      F# p$ u% j' @% N9 @, q
    7 s; Y; v. p1 |3 b# r" t问题描述9 d5 {& {. U. Z" {5 X3 I
    我们将要预测20世纪70年代中期波士顿郊区房屋价格的中位数,已知当时郊区的一些数据点,比如犯罪率、当地房产税率等。  F# `& C2 u! N" ^3 P
    本次用到的数据集包含的数据点相对较少,只有506个,分为404个训练样本和102个测试样本。输入数据的每个特征(比如犯罪率)都有不同的取值范围。例如,有些特征是比例,取值范围0 ~ 1;有的取值范围为1 ~ 12;还有的取值范围0 ~ 100,等等。
    ( z' Z! c6 C! R( [: n8 b: F数据特征:. `- u$ {, k0 f0 D- o. L
    人均犯罪率。
    5 r- V( M$ L( H+ z4 I- O/ U占地面积超过25,000平方英尺的住宅用地比例。
    3 X  E9 v1 x+ X: h" h) K& h8 `每个城镇非零售业务的比例。
    + S3 _/ @' F9 }: QCharles River虚拟变量(如果管道限制河流则= 1;否则为0)。
    9 O- I( i) {; s一氧化氮浓度(每千万份)。
    " P4 W  ?/ ^$ t每栋住宅的平均房间数。4 ^& j% j  g" h7 Z! Z* h
    1940年以前建造的自住单位比例。
    4 M; ~; X2 q7 O6 @  _. r3 I到波士顿五个就业中心的加权距离。3 N, S7 V6 ~: T; x- X
    径向高速公路的可达性指数。# I3 _! q: }# a$ q: `
    每10,000美元的全额物业税率。0 ~2 @1 R  B4 ^# ?+ G8 \
    城镇的学生与教师比例。- Z9 O1 o# e0 P5 e" q+ ^0 @" k/ z
    1000 (Bk - 0.63)* 2其中Bk是城镇黑人的比例。
    ! g" _9 s4 N6 L. t: n7 U人口比例较低的百分比。
    ; L" @$ y" X; n# T1. 加载波士顿房价数据
    , Q: o5 S- v. |, W. b, Qlibrary(keras)
    4 O, E- Y! B, k+ H4 {8 ]1 o
    " j7 C2 |7 B; b6 Dboston_housing <- dataset_boston_housing()" t, E& A1 J( r' t
    , @2 g7 M" g. Q3 q, D1 h
    c(train_data, train_labels) %<-% boston_housing$train' Z0 r# \: r& q
    c(test_data, test_labels) %<-% boston_housing$test2 e7 r  ~# Q8 o  x5 z

    1 ]% b- |; f! q# K

    每个样本有13个数值特征,目标是房屋价格的中位数,单位千美元。

    2. 准备数据

    数据标准化

    将取值范围差异很大的数据输入到神经网络中,这是有问题的。网络可能会自适应这种取值范围不同的数据,但学习肯定变得更加苦难。对于这种数据,普遍采用的最佳实践是对每个特征做标准化。

    ) l# b+ }4 M3 G
    # Test data is *not* used when calculating the mean and std.( D5 ?" ^7 G( d( ?3 Y/ J
    5 Q6 E$ @# n8 R9 B& X( `
    # Normalize training data
    5 u5 r+ h: [, etrain_data <- scale(train_data)
    9 _3 d' j, ~* k, x& {7 `2 m3 J, k! ]$ X$ \, \% J. t
    # Use means and standard deviations from training set to normalize test set
    5 |" t# V( ?1 q/ b9 @' Pcol_means_train <- attr(train_data, "scaled:center") # Z( O: y6 c5 Z7 }$ s
    col_stddevs_train <- attr(train_data, "scaled:scale")
      L7 T' X! v# e0 c( Utest_data <- scale(test_data, center = col_means_train, scale = col_stddevs_train)* F3 s  I8 D# m

    6 c( _6 E- o& R3 U. k; S& F" ?3. 构建网络

    创建模型

    # Z! p0 k/ `  m
    build_model <- function() {- s& Z9 s! M* h3 M7 G7 f
    , k9 ?* v- e0 h9 m; J# r
      model <- keras_model_sequential() %>%1 W( q. [3 ^9 C1 m- U7 `
        layer_dense(units = 64, activation = "relu",: s: P, g, k8 `* M3 K
                    input_shape = dim(train_data)[2]) %>%
    ) a& J$ q1 P# {2 g2 F    layer_dense(units = 64, activation = "relu") %>%
    # \8 N; s$ z& z- J4 K" W3 c    layer_dense(units = 1)
    4 n4 z$ f% V9 I, u7 u
    3 B7 d9 l8 [3 z6 }& t  model %>% compile() l! x1 Q  @# E: ]- g
        loss = "mse",
    & B% ~) Y  G6 A    optimizer = optimizer_rmsprop(),0 S) E" u* b; y; H/ M8 g+ _+ ~
        metrics = list("mean_absolute_error")1 E& U# V# t6 Y
      )( ]  D' ?# t9 U  x! H1 k
    % n9 x% x+ ^8 d4 W
      model  d+ ?: g" E5 i
    }
    # w+ t, x  b$ i. R/ D
    3 s- J7 u# \# ]9 [model <- build_model()0 t5 i0 t! c3 I: ]7 f& t/ w6 P
    model %>% summary()" n% k. D/ @0 b5 L6 E+ P7 ^6 c

    % W% a/ z0 B6 ]# r; l

    网络的最后一层只有一个单元,没有激活,是一个线性函数。这是标量回归(标量回归是预测单一连续值得回归)得典型设置。添加激活函数将会限制输出范围。

    4. 训练模型
    8 \+ x% w3 \4 }" S, K# Display training progress by printing a single dot for each completed epoch.
    9 h# n$ E% I  J5 [8 P; E9 d9 L$ lprint_dot_callback <- callback_lambda(  X! h, V$ p0 e3 [* U+ c
      on_epoch_end = function(epoch, logs) {0 S% `% b5 G/ H' X+ C9 i
        if (epoch %% 80 == 0) cat("\n")
    8 N( g; K8 ?  N. P" c    cat("."). j  `. L$ P2 b" C% G/ q: H
      }
    2 K2 U1 K6 }: q)   
    & n9 x/ H" }6 U5 R$ l! b
    4 @4 c4 Q* o4 m1 |. j* [. Depochs <- 500
    - d3 u3 ~( _& p( B8 O6 ?, r) C0 K
    5 S/ q; r- n% `2 V* P9 z! n# ?# Fit the model and store training stats
    6 Y3 x: g. I' u( L  ehistory <- model %>% fit(
    : o/ j( S$ ]* ^8 N  train_data,( S9 b0 `& y' _/ k: I) S" r' \
      train_labels,
    , H& ]+ u. [* y6 t8 i2 P  epochs = epochs,. e$ U' _* z0 X: [
      validation_split = 0.2,3 u3 D' D- {' f3 Z  Q. Q8 W$ j) P
      verbose = 0,* }2 K: O4 J$ x$ X
      callbacks = list(print_dot_callback)
    8 d2 a" M  N  F) c/ J)
    ! P& U% S; C8 d, S6 t7 t4 o
    $ h4 j  M/ W* U1 d0 Y5 \% h3 m: vlibrary(ggplot2)
    ! D: Q" a6 u9 ^8 C2 y/ E& d# E$ Q- _9 |' f) h8 L
    plot(history, metrics = "mean_absolute_error", smooth = FALSE) +
      b) i$ r6 }9 m0 u6 U; y! j  d; r9 k  coord_cartesian(ylim = c(0, 5))
    # W. \  y' ]8 e  B6 v
    ' d* k2 V/ |. H1 Y6 |4 Q1 e' p1 }6 g% e& T. n

    : d' R% T9 |( i4 _" B. C9 R+ p小结
    # z( G* X. g7 m. V0 `1)回归常用的损失函数是均方误差(MSE)。
    6 ?5 U7 \% e6 Y2 f2)常见的回归指标是平均绝对误差(MAE)。
    ( ?9 f# o6 G& J) B% B3 J8 z3)如果输入数据的特征具有不同的取值范围,应该先进行预处理,对每个特征单独进行缩放。4 n# n, _4 [% F+ u' w4 v
    4)如果可用训练数据很少,最好使用隐藏层较少(通常只有1~2个)的小型网络,以避免严重的过拟合。
    ( Y: v4 B5 c' d" n% d7 `, \, g5 s. q+ J0 r

    $ s. H# P4 W$ E: _1 }) ^* ]; s8 m/ E- X' r! G
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-9-11 09:13 , Processed in 1.160936 second(s), 52 queries .

    回顶部