QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 4015|回复: 0
打印 上一主题 下一主题

预测房价:回归问题——R语言

[复制链接]
字体大小: 正常 放大

1178

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2023-7-31 10:17
  • 签到天数: 198 天

    [LV.7]常住居民III

    自我介绍
    数学中国浅夏
    跳转到指定楼层
    1#
    发表于 2021-10-29 10:50 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    预测房价:回归问题——R语言
    - H6 f3 |3 @& u! S! p在回归问题中,我们的目标是预测连续值的输出,如价格或概率。将此与分类问题进行对比,分类的目标是预测离散标签(例如,图片包含苹果或橙色)。
    2 C- z" e) ^; C, k! b6 S5 [0 }+ S1 Y9 j: B$ u0 p
    问题描述
    " @6 E% S; G. a1 E我们将要预测20世纪70年代中期波士顿郊区房屋价格的中位数,已知当时郊区的一些数据点,比如犯罪率、当地房产税率等。
    , m# Q: P2 T1 f$ r4 a本次用到的数据集包含的数据点相对较少,只有506个,分为404个训练样本和102个测试样本。输入数据的每个特征(比如犯罪率)都有不同的取值范围。例如,有些特征是比例,取值范围0 ~ 1;有的取值范围为1 ~ 12;还有的取值范围0 ~ 100,等等。
    ' l- s; }& T8 D* q+ `数据特征:, }2 M" r2 Q/ X* p7 q9 }* C' U; Z
    人均犯罪率。( ?0 }+ U2 L( _3 k. Q
    占地面积超过25,000平方英尺的住宅用地比例。
    0 L' I: q7 h- n$ I; b, M6 X3 L6 g5 u4 j每个城镇非零售业务的比例。* \# o+ _6 v2 ^0 K
    Charles River虚拟变量(如果管道限制河流则= 1;否则为0)。6 T% J0 d5 i# O4 q7 E% `
    一氧化氮浓度(每千万份)。
    . @! A% h7 k& A1 P2 ~# e每栋住宅的平均房间数。
    5 L& z* V1 K& ^& H  n1940年以前建造的自住单位比例。2 w/ c9 L: ^( \. X" Q" a
    到波士顿五个就业中心的加权距离。1 G3 X& W- T. Z- Z/ s# g8 C, j
    径向高速公路的可达性指数。
    $ G7 i. j! W, W$ |5 w% O每10,000美元的全额物业税率。
    2 q- L2 U# `) V- h城镇的学生与教师比例。8 i) W. L% b. b9 i, \; |
    1000 (Bk - 0.63)* 2其中Bk是城镇黑人的比例。
    5 u6 t9 T, @, k7 a0 t3 C8 w7 y人口比例较低的百分比。/ i9 j5 P! i. [, b8 f
    1. 加载波士顿房价数据
    ! t5 X5 @) T# w( j6 Y2 {library(keras)) W. a& Q  G# \% m  f
    ; Y$ ~& {1 L+ `3 r: g( u4 B! \
    boston_housing <- dataset_boston_housing()& ]- H2 X# P  q+ Y, V

    , K+ V) ], m5 N1 q$ uc(train_data, train_labels) %<-% boston_housing$train
    2 J% W2 G  d/ I: T  @2 Vc(test_data, test_labels) %<-% boston_housing$test
    - p5 d. ?& f/ @0 B4 o4 x7 [% B; H$ ?5 N& F

    每个样本有13个数值特征,目标是房屋价格的中位数,单位千美元。

    2. 准备数据

    数据标准化

    将取值范围差异很大的数据输入到神经网络中,这是有问题的。网络可能会自适应这种取值范围不同的数据,但学习肯定变得更加苦难。对于这种数据,普遍采用的最佳实践是对每个特征做标准化。


    ; D& ~/ C2 N3 j- F+ Y' E# Test data is *not* used when calculating the mean and std.
    : ]/ R- D. B, ^+ x- }( K
    + K: \0 z/ j# T- ?* R/ ]7 T9 f0 |4 |# Normalize training data
    ' t1 w2 I2 E- Y' _9 v6 ~train_data <- scale(train_data) ! g: g+ U/ a0 g  n' N* A; h, J

    - V0 [  D  a4 Y, I" x# Use means and standard deviations from training set to normalize test set6 m! ]7 z5 J: v+ h* T
    col_means_train <- attr(train_data, "scaled:center") 6 X& f' H7 Y, r* F
    col_stddevs_train <- attr(train_data, "scaled:scale")/ }& F* k5 T: e+ o! C
    test_data <- scale(test_data, center = col_means_train, scale = col_stddevs_train)
    ) ^+ x! z$ H% p% i" z; O- H8 ]9 W, F
    3. 构建网络

    创建模型

    . H* r/ l5 r& f0 x( T- z1 Q& \! v4 c
    build_model <- function() {
    " V& ?/ Q* I4 P* h# W5 C2 d  g' ?+ X! n/ k( b# U+ |4 W
      model <- keras_model_sequential() %>%
    0 j: {0 {* T5 N# _  S5 h" E: W/ H    layer_dense(units = 64, activation = "relu",
    6 m3 C3 R0 p* D3 g+ Y( F                input_shape = dim(train_data)[2]) %>%4 k, I& J  U! p; @4 n+ U6 }/ v
        layer_dense(units = 64, activation = "relu") %>%/ M# z0 z9 U" x+ t5 R9 X8 z
        layer_dense(units = 1)1 ^# p$ J) b) g7 k/ W- R/ _  _
    9 B+ b7 A! `; m& w4 f' i6 N3 s
      model %>% compile(
    # s) J3 w7 J+ E8 z+ W/ l% v    loss = "mse",
    & M, H6 q2 c' l! v    optimizer = optimizer_rmsprop()," }* L* T8 u  F: a! {+ T4 m" a
        metrics = list("mean_absolute_error")
    ; `* |2 M9 e3 K, d5 j  )
    2 d0 V$ p9 s% d4 [4 [0 ^
    $ ^& X( m" s9 n6 ?' v  model- S$ X8 i" y& j0 P) t  U/ b# B, d, O
    }
    ) B* v/ n& Z: H5 B/ {5 W. i) `. i7 r+ r8 o: e
    model <- build_model()! a/ @& G( @1 F( j) j6 Q: o
    model %>% summary()0 a. L! i4 f+ L8 Z* Z
    $ V1 ^& C* z0 l+ k0 A; x0 G  S

    网络的最后一层只有一个单元,没有激活,是一个线性函数。这是标量回归(标量回归是预测单一连续值得回归)得典型设置。添加激活函数将会限制输出范围。

    4. 训练模型6 D4 s6 P) ~$ ~) f
    # Display training progress by printing a single dot for each completed epoch./ N6 p  [8 Y5 Y( B6 \3 M+ d% O+ E
    print_dot_callback <- callback_lambda(; n+ N5 Z; _/ t1 d0 y0 M
      on_epoch_end = function(epoch, logs) {
    6 \: g4 S$ u4 a+ w  Q' i    if (epoch %% 80 == 0) cat("\n")% s3 G! D( v4 v, n8 m$ x1 y8 I
        cat(".")
    ; [. W& O, L# e8 W2 z  }! a' F4 Z7 r5 L! F) I* I
    )   
    ( x4 _2 I' M2 B9 f2 C8 f/ k, Z# r2 F9 B- C5 ~
    epochs <- 500- o3 p: d8 \: {. R* \

    " C8 _' O# x; \1 J# Fit the model and store training stats
    . Q9 T) |6 X5 ~/ k6 K- shistory <- model %>% fit(
    ; u) ]2 x, N8 {- L4 O  train_data,& V: k* l# r- Y9 h
      train_labels,0 l8 s" i! u2 N6 h8 z9 }
      epochs = epochs,
    - n4 b9 i: U& B5 G3 R* h( ]  validation_split = 0.2,
    ! e7 q: x' l4 a1 l/ i# J6 Z$ C6 M  verbose = 0," ]" F. d1 f# C
      callbacks = list(print_dot_callback)
    6 _! Z& {3 G! z)+ e6 b4 ~1 D, w' J7 P
    2 r. i: T# U( V/ Q8 Z( O: C
    library(ggplot2)
    $ c  D4 M7 M6 j3 Y  S+ B0 C# }2 N' l$ m: E
    plot(history, metrics = "mean_absolute_error", smooth = FALSE) +
    6 m2 e1 P- u4 P5 `3 X* y$ ?! d  coord_cartesian(ylim = c(0, 5))
    ( B* W5 V+ @; E9 P" S4 I3 P. R& }$ W' j) Z0 Z- n
    7 z$ W+ k1 d- S
    + i; \- Z  Y1 X: ^% u: o
    小结
    ) q4 W5 I9 l+ f$ L# `8 `# ?1)回归常用的损失函数是均方误差(MSE)。
    % u/ _3 w2 p$ M5 ?3 o+ t* u2)常见的回归指标是平均绝对误差(MAE)。6 K6 r4 e' k* o
    3)如果输入数据的特征具有不同的取值范围,应该先进行预处理,对每个特征单独进行缩放。/ D% ]$ k" a0 O  S% H
    4)如果可用训练数据很少,最好使用隐藏层较少(通常只有1~2个)的小型网络,以避免严重的过拟合。; [1 A! R& D+ L/ m
    ; F4 z  q  b) z' H1 A5 b

    4 F, K& f; I  J# c9 _. \+ H
    8 w7 w4 n3 I' O: h, I- b# b
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-5-1 00:56 , Processed in 0.441436 second(s), 50 queries .

    回顶部