QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 4004|回复: 0
打印 上一主题 下一主题

预测房价:回归问题——R语言

[复制链接]
字体大小: 正常 放大

1178

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2023-7-31 10:17
  • 签到天数: 198 天

    [LV.7]常住居民III

    自我介绍
    数学中国浅夏
    跳转到指定楼层
    1#
    发表于 2021-10-29 10:50 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    预测房价:回归问题——R语言% {/ v9 e6 y5 T. O) s" S
    在回归问题中,我们的目标是预测连续值的输出,如价格或概率。将此与分类问题进行对比,分类的目标是预测离散标签(例如,图片包含苹果或橙色)。& C0 o+ o9 D* H9 b5 h0 `6 X5 R7 E( o
    ' |8 j' S# s$ q$ g6 V* W
    问题描述
    ( \% N' ^& l5 a7 m# O我们将要预测20世纪70年代中期波士顿郊区房屋价格的中位数,已知当时郊区的一些数据点,比如犯罪率、当地房产税率等。
    8 y4 J6 O: ~$ s' l. T$ N. n本次用到的数据集包含的数据点相对较少,只有506个,分为404个训练样本和102个测试样本。输入数据的每个特征(比如犯罪率)都有不同的取值范围。例如,有些特征是比例,取值范围0 ~ 1;有的取值范围为1 ~ 12;还有的取值范围0 ~ 100,等等。
    ! Z) \# K$ K/ k! e; u数据特征:
    " ^* w: ^4 C; B; K( s5 K1 {人均犯罪率。
    8 C% ]9 f& U3 P& A$ @9 {占地面积超过25,000平方英尺的住宅用地比例。0 \) D" b5 m4 g, c1 K
    每个城镇非零售业务的比例。. r& k: Q! X' i1 K/ W
    Charles River虚拟变量(如果管道限制河流则= 1;否则为0)。9 a, l( T; J3 Y6 k* B
    一氧化氮浓度(每千万份)。4 A9 [& a1 `: s+ c# w
    每栋住宅的平均房间数。: Y( {4 Q6 _* o4 \; X) H5 e% g
    1940年以前建造的自住单位比例。
    : g+ Q0 r- @* P6 |3 ?到波士顿五个就业中心的加权距离。# C! T/ D2 r/ @3 F
    径向高速公路的可达性指数。
    7 _/ Q, y, M9 R8 W每10,000美元的全额物业税率。! C; C. [2 G& _% }% R! v. I
    城镇的学生与教师比例。( S" k9 R) \6 y7 ^  b; ^+ x
    1000 (Bk - 0.63)* 2其中Bk是城镇黑人的比例。
    4 A1 m/ c8 d- E/ {, L人口比例较低的百分比。: W- D3 w* i# u( T- c" M
    1. 加载波士顿房价数据! o$ X# H* J0 r  _! U% e* g8 x1 B
    library(keras)$ ~: x" e& e2 u9 W) o

    5 Q% y7 d4 \1 x( x5 hboston_housing <- dataset_boston_housing()
    & b8 {- W" V2 _9 l* ]$ t# g  Z: [# n
    c(train_data, train_labels) %<-% boston_housing$train; V' c/ d) L' G3 C
    c(test_data, test_labels) %<-% boston_housing$test
    ( R3 m* k; R$ G5 I5 [. X: `1 G6 T: {/ n

    每个样本有13个数值特征,目标是房屋价格的中位数,单位千美元。

    2. 准备数据

    数据标准化

    将取值范围差异很大的数据输入到神经网络中,这是有问题的。网络可能会自适应这种取值范围不同的数据,但学习肯定变得更加苦难。对于这种数据,普遍采用的最佳实践是对每个特征做标准化。


    & z2 `9 @: R% B. M3 s! f# Test data is *not* used when calculating the mean and std.* a1 W$ e( D; ^6 w" ]  C3 C2 L

      U0 j% {6 A3 v# Normalize training data8 y; d  t) p% t& }: x! R( b
    train_data <- scale(train_data)   Y. Y0 F+ F6 Y1 l

    & |( v9 X% n% y& n  Z) }0 ^# Use means and standard deviations from training set to normalize test set
    $ _- t9 l8 J, H) v* r# `  acol_means_train <- attr(train_data, "scaled:center")
    ) n4 k- Y2 Z" t; Z# ]7 _" F0 ^col_stddevs_train <- attr(train_data, "scaled:scale")- ~" O3 y! @% `- _. o' C1 h: z
    test_data <- scale(test_data, center = col_means_train, scale = col_stddevs_train)
    . }% E" b, D1 \# a. d- G
    1 t( t* P& {6 }8 Q. M3. 构建网络

    创建模型


    # i7 _6 j- s/ \7 |build_model <- function() {
    : V; q4 g4 k$ w' l" v$ M* a( a
    8 p8 ~; X# q, Z+ P  Y. G! N  model <- keras_model_sequential() %>%1 x! \' r8 t$ y
        layer_dense(units = 64, activation = "relu",5 ^5 P, r* h+ ~+ c- p9 a
                    input_shape = dim(train_data)[2]) %>%
    : ~! B4 y" g/ y3 M5 S    layer_dense(units = 64, activation = "relu") %>%' z$ x7 j6 t  L2 {) _+ O8 }* l" i3 ~/ B
        layer_dense(units = 1)
    $ D, T$ m, @9 r5 Q. l& n4 j
    # H- F+ k0 B4 p6 x' T* P; W( J  model %>% compile(
    4 N9 _4 P$ v1 C+ e/ V    loss = "mse",: O0 H5 C3 B7 D2 P: b( G, ?( \
        optimizer = optimizer_rmsprop(),
    8 i; z8 [2 \* E    metrics = list("mean_absolute_error")
    * U) H% T. e% s  )
    4 p; f7 w5 n& y/ v# Q, L& q
    $ p, b) U0 Z/ c" i6 j0 m  A  model! F7 L5 s" w* Z5 X" P  ~6 [9 D3 H
    }7 b' Y1 F' i% @

    ( F0 f  p$ o, Y' x6 p) `# Bmodel <- build_model()
    ( o6 ], k# P: e- Nmodel %>% summary()
    " L: Q4 {8 t, j3 q& Q3 _. |& L/ ]" ?0 M( C- {3 i

    网络的最后一层只有一个单元,没有激活,是一个线性函数。这是标量回归(标量回归是预测单一连续值得回归)得典型设置。添加激活函数将会限制输出范围。

    4. 训练模型
    8 N- X2 Q% F! d# Display training progress by printing a single dot for each completed epoch.
    + d0 b9 P. z0 ^0 Iprint_dot_callback <- callback_lambda(
      [8 _6 B) T  q1 Z. r; {  on_epoch_end = function(epoch, logs) {
    4 Y4 _/ }& T$ t# t+ X    if (epoch %% 80 == 0) cat("\n")
    $ I, D3 K, z2 s2 ]( i/ }    cat(".")$ B8 \8 |8 H- I6 N
      }) l+ {4 h* N! M3 {$ L7 \5 I/ V
    )    , f% ]+ D0 ^0 A$ Q- E) |! i
    + v7 {# r2 {/ a- l0 a4 r# H5 T
    epochs <- 500! V, z1 S( B/ h9 I" f5 P3 \

    ) c! ~. N: j8 Z8 J2 w; R1 Z; O# Fit the model and store training stats$ g, s  I; k7 {: i5 u# X
    history <- model %>% fit(
    % ]. n1 ]% y* D& x! {  train_data,
    1 E7 r* V1 W# M: J  train_labels,
    0 w5 Z  V" ^9 ~  epochs = epochs,& H! O: j5 d- M% ]
      validation_split = 0.2,
    0 G' b# C0 J3 B- r2 O1 B3 J3 r  verbose = 0,+ N6 c8 [; W, Y
      callbacks = list(print_dot_callback)
    5 H: [5 w" h6 R% `8 S)6 z7 f! ~% ?" \/ G0 V" p

    0 o: Y$ q; l; n; xlibrary(ggplot2)
    3 C/ f% d2 Q' R+ y! ^. C' |" ]/ Z8 B8 F0 l+ Z# y/ |% l( l$ E1 K  V  \, V
    plot(history, metrics = "mean_absolute_error", smooth = FALSE) +
    2 z% \2 q; U0 |. Q/ L- V' e8 v  coord_cartesian(ylim = c(0, 5))
    5 m7 }) J% p5 ^/ G3 z, N
    ; B, W! ~- O! u$ ]  u" s0 v4 j# c8 Z2 j

    ' T/ L* o# \" F小结
    # y/ X) U( ]  B1 W0 z1)回归常用的损失函数是均方误差(MSE)。
    5 _: i1 r, k8 n  F  r, r2)常见的回归指标是平均绝对误差(MAE)。7 y: F0 `9 C, c  k7 P
    3)如果输入数据的特征具有不同的取值范围,应该先进行预处理,对每个特征单独进行缩放。7 }' o3 y: ^6 x( \3 U9 s7 m2 [
    4)如果可用训练数据很少,最好使用隐藏层较少(通常只有1~2个)的小型网络,以避免严重的过拟合。
    & V2 z" H. K5 E( g0 c/ O& k# k% [8 x

    $ p) n% B) e0 t- _9 I* `% J" T" F0 v! l8 ]/ e
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-14 00:10 , Processed in 0.410681 second(s), 51 queries .

    回顶部