QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3999|回复: 0
打印 上一主题 下一主题

预测房价:回归问题——R语言

[复制链接]
字体大小: 正常 放大

1178

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2023-7-31 10:17
  • 签到天数: 198 天

    [LV.7]常住居民III

    自我介绍
    数学中国浅夏
    跳转到指定楼层
    1#
    发表于 2021-10-29 10:50 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    预测房价:回归问题——R语言; n6 m, E2 o6 {& r0 W  l) B
    在回归问题中,我们的目标是预测连续值的输出,如价格或概率。将此与分类问题进行对比,分类的目标是预测离散标签(例如,图片包含苹果或橙色)。
    4 @+ l3 }. U; R) \) o0 a, K
    # ]/ s) o* }; v! K/ u问题描述4 M8 F9 B# m2 S# U; C
    我们将要预测20世纪70年代中期波士顿郊区房屋价格的中位数,已知当时郊区的一些数据点,比如犯罪率、当地房产税率等。, L6 n, R: x9 E; v3 y0 S) O" N" N: ~
    本次用到的数据集包含的数据点相对较少,只有506个,分为404个训练样本和102个测试样本。输入数据的每个特征(比如犯罪率)都有不同的取值范围。例如,有些特征是比例,取值范围0 ~ 1;有的取值范围为1 ~ 12;还有的取值范围0 ~ 100,等等。# X: Y) n/ S  O$ m0 d
    数据特征:8 _4 o& a1 U$ |7 t' z; Z
    人均犯罪率。2 n; e% u4 o( X, S
    占地面积超过25,000平方英尺的住宅用地比例。
    - |+ {- i2 G7 ~2 d9 {2 o2 ?, U8 N2 C每个城镇非零售业务的比例。- b6 B5 W) F# U
    Charles River虚拟变量(如果管道限制河流则= 1;否则为0)。$ a% F0 r# ~) g! a
    一氧化氮浓度(每千万份)。
    0 _# C0 }0 y0 j2 G) Z, X每栋住宅的平均房间数。
    + J9 i  x; p0 G3 U% @1940年以前建造的自住单位比例。
    , b7 M1 \  O1 e1 L到波士顿五个就业中心的加权距离。
    ; ]  E6 ]6 [5 ]3 T! ~7 ~径向高速公路的可达性指数。! w9 L) e" K& _5 e  ~/ M
    每10,000美元的全额物业税率。. u6 Z  g, I5 J3 c. c
    城镇的学生与教师比例。% `) e$ G9 K% X" y: l$ {
    1000 (Bk - 0.63)* 2其中Bk是城镇黑人的比例。
    2 H# X3 @  l: w4 H5 N7 \人口比例较低的百分比。
    3 U* P: ]+ u2 J8 Z! q% V1. 加载波士顿房价数据
    $ }. @! B3 K/ H9 D! F; alibrary(keras)) ?7 }2 G3 `  n5 R7 h5 Q
    5 T9 }( l% O9 U& Y! J- V
    boston_housing <- dataset_boston_housing()" v" k6 |3 N) T. Q
    4 ~- g( k" b) n1 x" a4 }  q! ^
    c(train_data, train_labels) %<-% boston_housing$train% Z! X: K; N6 G0 w0 w
    c(test_data, test_labels) %<-% boston_housing$test' K* Y' B2 y& e2 |8 F7 @  _) p
    9 G$ V0 D6 X' L* t; p' X3 w) C5 j

    每个样本有13个数值特征,目标是房屋价格的中位数,单位千美元。

    2. 准备数据

    数据标准化

    将取值范围差异很大的数据输入到神经网络中,这是有问题的。网络可能会自适应这种取值范围不同的数据,但学习肯定变得更加苦难。对于这种数据,普遍采用的最佳实践是对每个特征做标准化。


    7 }+ u, U- P! a$ X8 n# o. K! R# Test data is *not* used when calculating the mean and std.
    : c8 M& u$ m' L$ t
    1 [" R; y7 F' W" n, x# Normalize training data6 J$ r2 T# D: c/ f8 _$ X
    train_data <- scale(train_data)
    : ]1 E, Q$ G; }, J4 K. q* g0 h2 L. n; |0 K
    # Use means and standard deviations from training set to normalize test set! u/ j/ ?9 I* ~- k7 I. p0 E7 `1 G: k
    col_means_train <- attr(train_data, "scaled:center") * D" m* m# H( x1 W, M1 I) h, i
    col_stddevs_train <- attr(train_data, "scaled:scale")% a' E$ Q( H; L+ S. f$ m
    test_data <- scale(test_data, center = col_means_train, scale = col_stddevs_train)- H( p! Z9 W3 R6 z3 j/ B
    2 I: h. A' D# z2 f, E- c% t
    3. 构建网络

    创建模型


    * i& z5 ~. E% k6 T) \/ y. ybuild_model <- function() {
    ) x6 b# {5 e% n) B3 [: X* b7 o' O+ B8 \- v
      model <- keras_model_sequential() %>%. c1 {- K# c# ?* i
        layer_dense(units = 64, activation = "relu",9 }8 T8 s# k. }. l3 i; x8 Z$ n0 n8 `
                    input_shape = dim(train_data)[2]) %>%$ ~+ B, d& j, d, {7 w6 T' ~
        layer_dense(units = 64, activation = "relu") %>%- N& @) b+ K- ^7 H
        layer_dense(units = 1)
    4 N, }- ]: f# ?# C4 X& _; P, V' Q* }  t! G$ X/ ]( D0 p. {
      model %>% compile() T! d- ~1 N+ X5 V" \) n! H
        loss = "mse",3 _( c7 c6 {/ W% C% a# E
        optimizer = optimizer_rmsprop(),( s+ D; |6 A' [- e  F7 P
        metrics = list("mean_absolute_error")
    2 R8 O" q' b! R& O5 r: e  )
    0 w* W; O* v5 ?; w' _
    $ j+ t; u9 s% G* Z( U  model
      x( k0 U; i, Y2 r% j+ x9 o) {4 V}% i6 [/ M) B" ]" y$ r

    7 X1 b4 ^( B8 e1 Q; @# Cmodel <- build_model()7 c0 i$ U! p5 z9 t! g
    model %>% summary()5 _. z+ o* Z2 l4 f. c
    9 U- W9 @' V5 B& u6 ?

    网络的最后一层只有一个单元,没有激活,是一个线性函数。这是标量回归(标量回归是预测单一连续值得回归)得典型设置。添加激活函数将会限制输出范围。

    4. 训练模型
    : f' j7 Q% L" ^+ X0 ?# Display training progress by printing a single dot for each completed epoch.$ c8 [/ L! A8 M8 Z5 S
    print_dot_callback <- callback_lambda(
    8 W0 A$ k2 w& s, t+ q, o* \  on_epoch_end = function(epoch, logs) {/ W" [# M4 t0 W  \
        if (epoch %% 80 == 0) cat("\n")- z) c" I! N7 C1 q  p# v) A% ?
        cat(".")
    3 h' S! Y9 r& t+ s2 u  }
    ' G+ D" G" i+ D. G7 l& M$ z, ~)   
    % q) Y9 l/ g- J( `* C$ \; x0 n3 Y- |' f* ~& T, T3 c
    epochs <- 500
    ' P8 P. `) }4 |9 R' `: A- U7 e( y2 x- _  ]( a* L
    # Fit the model and store training stats
    ; b  K1 F( w, r& |, \history <- model %>% fit(
    ! W" l' C9 Z- N  train_data,
    & B" O- c6 c' \1 A7 J+ M* Y: c  train_labels,
      n% k  U& a1 c) D# q: H; ^  epochs = epochs,- c. s5 b  v$ N" G
      validation_split = 0.2,. J. \1 Y0 V. v/ D6 M; X
      verbose = 0,8 E" N  p1 ]( _. o, w
      callbacks = list(print_dot_callback)+ Y3 [% U; {  ~- d% }# R/ H+ J
    )! O* w: l% i  o% Y) ?: J

    ) y# V9 _# A# Y, _% P5 U: v* Qlibrary(ggplot2)
    # A5 C, G/ N& o8 ]6 W
    + |2 x& o0 }4 l; c. w* i  Q" u$ Vplot(history, metrics = "mean_absolute_error", smooth = FALSE) +1 O$ R2 M# @' u& S
      coord_cartesian(ylim = c(0, 5))4 }! Q* h$ q  e: |
    1 ?/ l4 J! r1 C7 u4 D; O% H; O: C

    4 ]; F! j# B5 A5 B: M) \$ l; _1 u* K' v2 [& W( @
    小结
    8 M, U5 D( t. z! X- Y5 A0 I% @1)回归常用的损失函数是均方误差(MSE)。
    # V9 G$ k1 W" U0 H8 t6 f6 [2)常见的回归指标是平均绝对误差(MAE)。, q- C3 U7 f  j: M
    3)如果输入数据的特征具有不同的取值范围,应该先进行预处理,对每个特征单独进行缩放。3 [& {1 y" L  l* Q1 L/ j$ b- R- f
    4)如果可用训练数据很少,最好使用隐藏层较少(通常只有1~2个)的小型网络,以避免严重的过拟合。
      Q! @6 |! U$ b3 F& V( w% w4 Z* Z& J
    8 I( R1 k5 m# R* i% ~' n

    % t5 T" X8 A. Q/ {. i
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-12 07:46 , Processed in 0.409838 second(s), 51 queries .

    回顶部