QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3998|回复: 0
打印 上一主题 下一主题

预测房价:回归问题——R语言

[复制链接]
字体大小: 正常 放大

1178

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2023-7-31 10:17
  • 签到天数: 198 天

    [LV.7]常住居民III

    自我介绍
    数学中国浅夏
    跳转到指定楼层
    1#
    发表于 2021-10-29 10:50 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    预测房价:回归问题——R语言
    7 _; @2 g  o9 J% L+ g. X; {# e在回归问题中,我们的目标是预测连续值的输出,如价格或概率。将此与分类问题进行对比,分类的目标是预测离散标签(例如,图片包含苹果或橙色)。
    ; y1 M# b+ |) F: {( |9 _) g! V% r
    # g* u2 C9 `4 k# m% ~/ h问题描述
    ( Q1 D: W$ G& F+ o1 `/ i我们将要预测20世纪70年代中期波士顿郊区房屋价格的中位数,已知当时郊区的一些数据点,比如犯罪率、当地房产税率等。6 Y2 c: K- A8 @# t" Z+ }
    本次用到的数据集包含的数据点相对较少,只有506个,分为404个训练样本和102个测试样本。输入数据的每个特征(比如犯罪率)都有不同的取值范围。例如,有些特征是比例,取值范围0 ~ 1;有的取值范围为1 ~ 12;还有的取值范围0 ~ 100,等等。* @9 W# V' m1 s) j6 g8 F
    数据特征:. o  s! w3 _( O4 x2 e/ Y+ V2 H
    人均犯罪率。
    + o) f- L( B( b- {; a3 K* I占地面积超过25,000平方英尺的住宅用地比例。% E% y5 x/ n. \. T
    每个城镇非零售业务的比例。+ y9 e1 R; Q! I4 ?
    Charles River虚拟变量(如果管道限制河流则= 1;否则为0)。
    ' Z, W& R4 }5 R! e  g一氧化氮浓度(每千万份)。- q3 }/ g! |0 n6 u' U4 x
    每栋住宅的平均房间数。
    % d2 m, {/ d' d( L, w, s5 t5 l* a1940年以前建造的自住单位比例。* V, j! W! W/ W% ^; f, y2 e) x
    到波士顿五个就业中心的加权距离。: _- b9 P) k7 J3 t
    径向高速公路的可达性指数。
    : w9 ~& [* D: r" S2 i/ t* h7 A! c% C1 z每10,000美元的全额物业税率。
    . i- a+ a# J4 X+ J7 D4 o4 l9 I城镇的学生与教师比例。
    / [& T' q) j% [1000 (Bk - 0.63)* 2其中Bk是城镇黑人的比例。
    4 W  n4 w7 I3 R; Z' D人口比例较低的百分比。& a- y! |8 |& R3 P0 y
    1. 加载波士顿房价数据7 Z3 F* ~& I. N0 c. M
    library(keras)
    . x) Y5 H" J/ a3 o: W1 E, Y3 z
    ! O- q. ]- ?' ^+ L1 B/ e( yboston_housing <- dataset_boston_housing()
    - n! K3 g/ C4 C/ U3 x" q
    . E' k2 [, y0 q1 v0 W" rc(train_data, train_labels) %<-% boston_housing$train4 I, [* J5 |2 a. G1 g' C
    c(test_data, test_labels) %<-% boston_housing$test
    4 }# B3 d' o% g2 R/ o. X/ w
    3 R! i6 x# Z9 d

    每个样本有13个数值特征,目标是房屋价格的中位数,单位千美元。

    2. 准备数据

    数据标准化

    将取值范围差异很大的数据输入到神经网络中,这是有问题的。网络可能会自适应这种取值范围不同的数据,但学习肯定变得更加苦难。对于这种数据,普遍采用的最佳实践是对每个特征做标准化。


    6 V3 {- e- M9 {1 @, ]: _# Test data is *not* used when calculating the mean and std.7 ^( a; F9 Q5 h! h

    9 A6 z  |3 P$ V# W# Normalize training data
    9 R1 i" L# J: ^3 {  rtrain_data <- scale(train_data) 4 [9 ~3 |$ H/ B. F

    : L3 }% j; ]  z- V# Use means and standard deviations from training set to normalize test set
    " ~# E3 I& @  |. |5 r5 }0 `col_means_train <- attr(train_data, "scaled:center") 5 P  L7 a) E: W/ F  Z/ p/ F$ V
    col_stddevs_train <- attr(train_data, "scaled:scale")& c8 s: Y6 N1 g  U7 z
    test_data <- scale(test_data, center = col_means_train, scale = col_stddevs_train). J9 t) u0 d( K9 f; ~; F
    9 @# M9 Z. F5 f3 S& p
    3. 构建网络

    创建模型


    " e! @* |+ Y7 `, s2 ybuild_model <- function() {7 _& i; M) |6 I) X

    4 k, q4 L0 w7 B* O! X7 u  model <- keras_model_sequential() %>%0 h  d( K3 Y4 t+ t* r! o' P: T
        layer_dense(units = 64, activation = "relu",
    3 c2 o7 p8 J* C) ~                input_shape = dim(train_data)[2]) %>%9 z3 l3 e7 X; L6 L
        layer_dense(units = 64, activation = "relu") %>%$ l9 ^" O# l) i1 j/ R7 ]+ \- m. Y% F
        layer_dense(units = 1)
    1 o4 e+ M/ H; A2 d2 A
    ; q  G; ~- v  h( v5 ]1 q. a  model %>% compile(' O' s# N( |4 m2 G
        loss = "mse",8 F: t  r2 K+ d& P
        optimizer = optimizer_rmsprop(),
    # l# N' v/ T" a, A    metrics = list("mean_absolute_error")# Q0 @1 n7 Z7 v8 f
      )
    ( K+ i7 `/ B5 W% z3 t6 [% l8 y6 \) O/ h8 [
      model
    ( I7 @; a7 ^7 E6 I7 s}
    6 M# m1 J/ Q4 q* D4 O: k; U" J5 m- ]+ D: C5 ~) e
    model <- build_model(); O; e" L$ k5 j1 i: y
    model %>% summary()
    1 p" I& b- N7 x/ d6 R  ?% a7 n; ]+ z$ n3 k/ b+ E, ?

    网络的最后一层只有一个单元,没有激活,是一个线性函数。这是标量回归(标量回归是预测单一连续值得回归)得典型设置。添加激活函数将会限制输出范围。

    4. 训练模型6 N3 Z9 W- N! W8 o' P
    # Display training progress by printing a single dot for each completed epoch.
    * B! K; m. a% vprint_dot_callback <- callback_lambda(% u0 K. D( _+ s
      on_epoch_end = function(epoch, logs) {
    ) {( r! Z' k/ {3 @  i& n0 o    if (epoch %% 80 == 0) cat("\n")
    ! w- [- c( A" [1 C1 o8 F' a    cat("."), ~  _7 L2 P" V$ Z% ]
      }
    # _) e/ d6 t6 |8 r)    + @1 l9 X# l" u+ b4 Q

    . q$ o6 K: d" T+ f2 Sepochs <- 500, e' A" m$ c5 \0 S
    + S! J- T9 `5 N, E
    # Fit the model and store training stats
    7 {5 h# W& }+ X7 u& _+ Fhistory <- model %>% fit(
    4 ^4 _' y/ b3 R% O; U  train_data,
    . p& D$ p1 G8 \7 l1 S2 g/ M+ |  train_labels,9 U3 ~, D8 Q0 _' p1 G
      epochs = epochs,4 T" w( G! j% B  w. ~+ P2 v
      validation_split = 0.2,; P% T. r$ f8 x% E$ S; d" M! N6 W6 W7 b
      verbose = 0,
    # k, ^7 p' q# D: z  callbacks = list(print_dot_callback)/ E' M" t6 A5 X4 t6 {
    )
    4 }9 M/ R: M0 S; m! P4 `/ u; V# l7 d; O# S3 g2 D
    library(ggplot2)1 p! `0 v+ L+ ^1 Z
    $ B# v6 U" l1 j  i$ {/ |1 j+ ]
    plot(history, metrics = "mean_absolute_error", smooth = FALSE) +
    7 r' _/ S) F& G" \: M: x  coord_cartesian(ylim = c(0, 5))
    ! m' e; }! X9 U8 l( f- Y2 W8 R0 B# \- \

    ! t: z. s) [) p. i+ v+ v+ B& Z& c9 `- g& [( J- {
    小结  b" w' M8 U) m9 H3 n
    1)回归常用的损失函数是均方误差(MSE)。
    " C8 N  ]1 n. p3 i: u3 q% R2)常见的回归指标是平均绝对误差(MAE)。( b  J# F1 D6 O" E/ x# L
    3)如果输入数据的特征具有不同的取值范围,应该先进行预处理,对每个特征单独进行缩放。
    * w$ q4 j5 d% h& n4)如果可用训练数据很少,最好使用隐藏层较少(通常只有1~2个)的小型网络,以避免严重的过拟合。
    & B& F, z% P4 j# x) B! M  u9 Y1 V% u/ l) F) G3 o$ k
    0 J" _; Q% F" [3 v+ P; b+ D
    ( G" K; O" w2 l' t/ {' G0 e1 _9 M
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-11 08:22 , Processed in 0.422237 second(s), 50 queries .

    回顶部