QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3866|回复: 0
打印 上一主题 下一主题

预测房价:回归问题——R语言

[复制链接]
字体大小: 正常 放大

1178

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2023-7-31 10:17
  • 签到天数: 198 天

    [LV.7]常住居民III

    自我介绍
    数学中国浅夏
    跳转到指定楼层
    1#
    发表于 2021-10-29 10:50 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    预测房价:回归问题——R语言
    + [' v  C% @5 R, u# ~在回归问题中,我们的目标是预测连续值的输出,如价格或概率。将此与分类问题进行对比,分类的目标是预测离散标签(例如,图片包含苹果或橙色)。' C2 V# h8 Q  r$ Q' e

    * d1 [, ^5 \- @, o; d( C问题描述
    ! b' E9 R7 ?" L, Y- T* H* V! L我们将要预测20世纪70年代中期波士顿郊区房屋价格的中位数,已知当时郊区的一些数据点,比如犯罪率、当地房产税率等。( \! D4 h4 M, {* B+ L2 K: e9 F9 t
    本次用到的数据集包含的数据点相对较少,只有506个,分为404个训练样本和102个测试样本。输入数据的每个特征(比如犯罪率)都有不同的取值范围。例如,有些特征是比例,取值范围0 ~ 1;有的取值范围为1 ~ 12;还有的取值范围0 ~ 100,等等。- _0 i( X9 n: ]" A# v( @
    数据特征:
    ; M2 `5 }1 E8 M( o, T( N6 ]6 I人均犯罪率。
    6 J; H  M: ^6 ]# \6 ^7 z/ ~+ R, [1 m占地面积超过25,000平方英尺的住宅用地比例。2 \/ X0 q" T# o  b. z! M( S+ E0 k
    每个城镇非零售业务的比例。+ z( E& X0 b) p5 Y/ n
    Charles River虚拟变量(如果管道限制河流则= 1;否则为0)。
    3 O. M- \( W) d( w3 V0 J一氧化氮浓度(每千万份)。
    4 G, G! i6 P9 y& c% v2 \每栋住宅的平均房间数。
    ' J: P& L5 R7 Q0 l9 H+ r1940年以前建造的自住单位比例。$ N9 d7 I$ R5 B% O% h- n
    到波士顿五个就业中心的加权距离。5 X# D0 W% w( s/ X
    径向高速公路的可达性指数。
    , F' o. |9 Y% ?! g) G9 B每10,000美元的全额物业税率。
    / j5 \& L# h  Q/ p- Q5 h3 X( V( C* a城镇的学生与教师比例。2 l' N% U, g( Z" C% N
    1000 (Bk - 0.63)* 2其中Bk是城镇黑人的比例。
      i% G( Z' p( d1 M2 ?) d; S人口比例较低的百分比。
    " c& W9 G+ W! O0 a! u+ r$ L1. 加载波士顿房价数据
    , [  W2 J! \2 n3 u, W: w: |library(keras)! f1 d/ c1 w8 {* r1 ?6 k  A2 j' A
    1 c. z4 L+ b/ t+ j0 t; j$ a
    boston_housing <- dataset_boston_housing()
    ' s% P- C: ]2 V& ^+ |2 U' J9 ^6 t3 S  l; ]# j
    c(train_data, train_labels) %<-% boston_housing$train
    - |% W4 D! N. X7 I; i9 T! G; Oc(test_data, test_labels) %<-% boston_housing$test
    8 l5 a/ }$ b1 S' {+ s
    8 {  ~5 }& L; P# x* u4 n: E. c) F$ g

    每个样本有13个数值特征,目标是房屋价格的中位数,单位千美元。

    2. 准备数据

    数据标准化

    将取值范围差异很大的数据输入到神经网络中,这是有问题的。网络可能会自适应这种取值范围不同的数据,但学习肯定变得更加苦难。对于这种数据,普遍采用的最佳实践是对每个特征做标准化。


    + q0 {8 N; t7 Y1 Z# Test data is *not* used when calculating the mean and std.0 I* Q4 K1 f* q; S8 r

    : q& s+ }4 B5 `1 a, s$ e. `# Normalize training data3 M; W1 {5 F8 t- s8 |8 \; F1 ^
    train_data <- scale(train_data) 5 g' U/ W/ a0 u' N: l

    2 G- m  w5 y& U+ S' B0 f5 r# Use means and standard deviations from training set to normalize test set7 N2 u9 E0 g! Y* _1 E
    col_means_train <- attr(train_data, "scaled:center") 6 ]$ @* B9 K: v  d: B1 G0 ~
    col_stddevs_train <- attr(train_data, "scaled:scale")
    ; i% b! G( O% z8 M  btest_data <- scale(test_data, center = col_means_train, scale = col_stddevs_train)
    - q6 r* {" P- u# ?* H' y- C% L- y7 r' b& E  V
    3. 构建网络

    创建模型


    8 h" L9 R* p; `, qbuild_model <- function() {; A5 h& W. `5 f. E2 g' s
    . i3 ^0 P! w0 z* S) z" q' _) F
      model <- keras_model_sequential() %>%6 w8 r6 o- a) ?" q
        layer_dense(units = 64, activation = "relu",
    " |: B/ F3 w0 p4 K) b* f/ d, Y                input_shape = dim(train_data)[2]) %>%$ o! s# w% v& v# T, C& ~5 Z
        layer_dense(units = 64, activation = "relu") %>%
    5 N- g% W4 @- P2 s5 f* U% Z    layer_dense(units = 1)- f; z% k- H5 S# r" c  s" R3 U
    2 N9 g; Q7 O8 Y1 L
      model %>% compile(# r8 f# {9 V) [0 K7 a
        loss = "mse",' V+ h6 F6 S; m5 h  g
        optimizer = optimizer_rmsprop(),
    , H4 l" F, L3 k. w8 E: b8 k    metrics = list("mean_absolute_error")# G% w0 n& F# X
      )
    & n: O( Z6 ^/ ^8 \9 E" I0 x& ~& I5 e! J2 ^6 E
      model
    , b+ ]. l' g9 q3 B9 c}
    2 z! \1 L- }7 p1 y% [- _) o  Q! D! o, K
    model <- build_model()
    * b5 N! H/ y5 q, J- M/ Wmodel %>% summary()
    + w% [% s: M( S) B8 j. [+ j# F! c1 B" M+ ]: w

    网络的最后一层只有一个单元,没有激活,是一个线性函数。这是标量回归(标量回归是预测单一连续值得回归)得典型设置。添加激活函数将会限制输出范围。

    4. 训练模型
    4 ?! ?7 p- o9 G" v% `$ {# Display training progress by printing a single dot for each completed epoch./ G# L; ?' q7 Q' _
    print_dot_callback <- callback_lambda(% g2 B  |! V, {/ {
      on_epoch_end = function(epoch, logs) {
    , W% k* W. ~- z7 O4 g3 h" Y    if (epoch %% 80 == 0) cat("\n")
    ! S/ E" W% o( i    cat(".")8 x" J+ C# f  @9 v* `. g
      }* O* {% g- }5 x9 l
    )    % ~! n/ k" K$ \. W" l

      G8 ?3 @: l0 s+ ?* Sepochs <- 500) t! l  G' H3 X( Z

    ! m4 _3 ]+ q4 f# [2 H# Fit the model and store training stats6 a% ^. D) |" P) n9 ?8 W4 q) ?
    history <- model %>% fit(
    : q$ q# Q1 f' W) O# L  train_data,
    : [9 W/ R: G6 Z! g6 W( y+ J! T# D  train_labels,
    ( Z% p5 t2 V3 U5 s/ E: s  epochs = epochs,
    # r$ j! |7 k! V8 x" _  validation_split = 0.2,
    5 }. [3 O  b5 F# A) Y  verbose = 0,8 w: Y  t; Q7 K0 F. Y2 M" I' A
      callbacks = list(print_dot_callback)
    ! X3 o4 r% I+ S& Z9 ?4 `)- F2 t: Q, P% D# t
    % V# h: j. ^/ }) G, V, F* M9 ]
    library(ggplot2)! r# K% f- V$ g

    ; c8 p" h# D8 M" L$ D2 i( ~4 G+ ~plot(history, metrics = "mean_absolute_error", smooth = FALSE) +2 I1 Z. }7 l/ _: y" H2 X/ N" R
      coord_cartesian(ylim = c(0, 5))
    - K- q: w6 B! J+ @+ H3 s8 m- k: |  l; X

    * G8 n& G: P& a" t/ H
    . N5 z/ u; }% i小结
    7 j* p& i6 o6 A3 a1 s1 w- B; t! L: `* D1)回归常用的损失函数是均方误差(MSE)。% v0 j- i+ P: ~, M" m+ N7 n. e/ C& _# F" d
    2)常见的回归指标是平均绝对误差(MAE)。
    ! p- V: V$ X+ J- M, F3)如果输入数据的特征具有不同的取值范围,应该先进行预处理,对每个特征单独进行缩放。7 V7 R' w3 w2 d+ U. M
    4)如果可用训练数据很少,最好使用隐藏层较少(通常只有1~2个)的小型网络,以避免严重的过拟合。( E3 Y) u& A3 a( e6 R% B

    1 a$ S6 J0 ]( z  J  ?8 Q8 g' W6 }. o
    1 l: Z& Y, y0 [5 Q, n" r* ~' N
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-12-8 08:00 , Processed in 0.706795 second(s), 50 queries .

    回顶部