QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3958|回复: 0
打印 上一主题 下一主题

预测房价:回归问题——R语言

[复制链接]
字体大小: 正常 放大

1178

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2023-7-31 10:17
  • 签到天数: 198 天

    [LV.7]常住居民III

    自我介绍
    数学中国浅夏
    跳转到指定楼层
    1#
    发表于 2021-10-29 10:50 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    预测房价:回归问题——R语言4 a) Y% u  n: H0 Q
    在回归问题中,我们的目标是预测连续值的输出,如价格或概率。将此与分类问题进行对比,分类的目标是预测离散标签(例如,图片包含苹果或橙色)。1 F0 X: p4 ]: B* u
    ) ?8 r1 _4 ]4 Q' a( ]/ J- K
    问题描述/ c& R3 [3 a1 p
    我们将要预测20世纪70年代中期波士顿郊区房屋价格的中位数,已知当时郊区的一些数据点,比如犯罪率、当地房产税率等。3 }3 i( \+ O) i. \% C: P/ z! J
    本次用到的数据集包含的数据点相对较少,只有506个,分为404个训练样本和102个测试样本。输入数据的每个特征(比如犯罪率)都有不同的取值范围。例如,有些特征是比例,取值范围0 ~ 1;有的取值范围为1 ~ 12;还有的取值范围0 ~ 100,等等。
    5 J/ [$ Z8 @9 Q4 Q/ e; v! ]数据特征:+ j6 {0 [4 _1 h" G1 Q+ u
    人均犯罪率。8 S+ M( p% p1 A6 |: k) s
    占地面积超过25,000平方英尺的住宅用地比例。3 q, U+ r2 z0 j) o" y( W) `* T& ?
    每个城镇非零售业务的比例。
    , o; V7 A1 d4 }) e& Q- G: k! `Charles River虚拟变量(如果管道限制河流则= 1;否则为0)。; ~' L6 z0 Q/ n; A- G
    一氧化氮浓度(每千万份)。
    - ^* t1 y+ s" N5 o6 W! h每栋住宅的平均房间数。& e0 x+ i4 o* B4 V0 ~' B
    1940年以前建造的自住单位比例。* s+ T% l) i, U# e" o( I. Y6 d
    到波士顿五个就业中心的加权距离。0 t) n- j7 M7 W' K! E
    径向高速公路的可达性指数。
    * a  O9 ~" A( w6 L每10,000美元的全额物业税率。
    ) i, C" @% j: P6 M, K* K城镇的学生与教师比例。
    7 k( A4 L7 v8 g; t. {2 V* ]( J1000 (Bk - 0.63)* 2其中Bk是城镇黑人的比例。8 q( m( n. x. C- `7 ~
    人口比例较低的百分比。) L0 [( O9 d9 `/ u7 ?6 Q# o7 c
    1. 加载波士顿房价数据
    6 O9 E( P. M; A( ~8 E$ ]: }8 Z7 Ilibrary(keras)' L! |' P* o) A; p* ?) B9 }. r6 r

    5 r& h, ^. `. x8 ]* n9 jboston_housing <- dataset_boston_housing()
    " s( b+ T2 z8 `  u- y  c2 w# `
    8 r1 {5 z& ~# s7 e* z8 s' ?% I( z# oc(train_data, train_labels) %<-% boston_housing$train
    ' r+ p2 a0 v5 n9 wc(test_data, test_labels) %<-% boston_housing$test
    / n% J8 O# y' H4 j, z
    1 i# v: E! p7 U7 P; K

    每个样本有13个数值特征,目标是房屋价格的中位数,单位千美元。

    2. 准备数据

    数据标准化

    将取值范围差异很大的数据输入到神经网络中,这是有问题的。网络可能会自适应这种取值范围不同的数据,但学习肯定变得更加苦难。对于这种数据,普遍采用的最佳实践是对每个特征做标准化。

    & R1 G* v9 D  l' W- Q/ T
    # Test data is *not* used when calculating the mean and std.
    $ t; t$ e0 I" c9 f% |) ~* _6 l
    3 y5 Z5 U/ T7 y, R: g* Q8 Q" T! l# Normalize training data
    + U: ~& o' {! U4 i( [* otrain_data <- scale(train_data) ) J& r2 S. N6 v, V/ b/ m
    " ~* E! \' g$ L5 y; R
    # Use means and standard deviations from training set to normalize test set) W" }8 a- d$ V" g" B4 x! L3 z
    col_means_train <- attr(train_data, "scaled:center")
    & s  A0 t0 H  v$ |1 ?) d7 gcol_stddevs_train <- attr(train_data, "scaled:scale")2 }, j! {* w/ v2 Z+ |' `
    test_data <- scale(test_data, center = col_means_train, scale = col_stddevs_train)! T! Y, b( G" Y( c' Y) h* g# ]
    . Y1 _( U7 ]! w+ A7 q- V
    3. 构建网络

    创建模型


    3 }; q9 n/ }5 U& r7 h0 ubuild_model <- function() {3 o4 V, V: p, f$ i
    5 ~- X3 o+ p8 x" [& w5 i5 X; z/ \4 }
      model <- keras_model_sequential() %>%& H/ @" k2 j  F1 l3 V0 b
        layer_dense(units = 64, activation = "relu",7 u$ @1 }7 V1 @  V& |! Q+ [$ C
                    input_shape = dim(train_data)[2]) %>%
    ( F, X; [- Q% b( i/ `" a/ T1 U    layer_dense(units = 64, activation = "relu") %>%
    1 a0 k; o+ M, c0 J- g. j" f# X    layer_dense(units = 1)
    / d  H" h  W2 H4 y# |3 b$ p( p5 F" b1 Q0 g- e9 ?
      model %>% compile(
    * ?* a/ G0 o: V; e- d    loss = "mse",' `1 i/ [) ~, Q1 `4 C
        optimizer = optimizer_rmsprop(),3 I8 ]! o0 O4 u, F# o6 w
        metrics = list("mean_absolute_error"). K* L1 U4 s: i4 @
      )
      p5 B6 q' O0 C
    0 h% k8 b& _# N2 _* c' l  model
    % [) H& O6 F  z% p}2 I& u/ T" G$ w7 [7 C# M% ~
    ' ^3 G/ q' I/ r
    model <- build_model()
    ' j, G9 a3 Z6 `0 n0 i% B7 O# C. [4 tmodel %>% summary()- c5 _* ]2 i) G) R) k* C0 F

    : ]/ w) H1 a# S8 @+ a/ c

    网络的最后一层只有一个单元,没有激活,是一个线性函数。这是标量回归(标量回归是预测单一连续值得回归)得典型设置。添加激活函数将会限制输出范围。

    4. 训练模型# n6 C1 P- z! S, ~
    # Display training progress by printing a single dot for each completed epoch.# W' ]1 _! D2 f3 c# b5 X( T
    print_dot_callback <- callback_lambda(
      Z, o" i+ l& {: f7 ~  on_epoch_end = function(epoch, logs) {% S! Y; m% G& @6 E4 O
        if (epoch %% 80 == 0) cat("\n")
    0 R* u2 x* `% \: ]. H$ W1 ]    cat(".")- N6 x5 n, ?) ]7 `( a8 I" k: C0 Q
      }
    * j) x$ z8 L3 r/ @)    5 q9 @6 Z/ m2 Z( I

    * h% ^% [3 \5 s& iepochs <- 500
    8 u7 E4 W6 i5 I
    / E) j! i& r* d. C& G4 S# Fit the model and store training stats% a7 x4 U* Q# Q- a# q/ H
    history <- model %>% fit(
    5 O9 N& W- j- [4 g4 _  V4 D- E  train_data,
    7 |+ W( l; w9 R/ c  train_labels,
    5 j, Q0 p* W; g8 T  epochs = epochs,
    & U+ z# S0 q" u0 F6 @  validation_split = 0.2,
    6 q$ f) ?3 X3 W  verbose = 0,8 y0 z  v3 d5 D) Q1 d8 n
      callbacks = list(print_dot_callback)9 h; w3 {$ j, N$ M+ J3 |
    )
    ( o5 [: t  t  `
    + J/ k- w+ R6 a+ jlibrary(ggplot2)
    5 I( L6 d/ m( O$ h/ q4 u# f* F* F* V6 f
    plot(history, metrics = "mean_absolute_error", smooth = FALSE) +$ |9 ^' g) y: |' \
      coord_cartesian(ylim = c(0, 5))
    ( r# `. a% q( L  _3 \0 v- X* e9 P4 X
    ( b3 ]/ C0 N7 T' ]2 N+ p% C; R' B
    ; I8 G4 u; h3 g2 X
    小结
    , g4 L' I4 U0 u1)回归常用的损失函数是均方误差(MSE)。6 g; b+ W. ^! ^# o9 g: N
    2)常见的回归指标是平均绝对误差(MAE)。/ j( q1 B1 g- q5 I1 B, F$ M2 X
    3)如果输入数据的特征具有不同的取值范围,应该先进行预处理,对每个特征单独进行缩放。6 q3 E8 x' l: S; o; x2 w
    4)如果可用训练数据很少,最好使用隐藏层较少(通常只有1~2个)的小型网络,以避免严重的过拟合。
    8 z. @& r. P5 Y3 e+ B! r
    $ G) S! i2 b0 a8 [+ q7 Q6 W, O
    3 {( I1 X6 z+ S2 ^2 e1 k* h  O" d' j& ]. Y0 P! j5 F! V) ~
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-1-7 15:01 , Processed in 0.516119 second(s), 50 queries .

    回顶部