查看: 1628|回复: 0

房价预测（线性回归）

字体大小: 正常放大

1171 主题	4 听众	2781 积分

该用户从未签到

电梯直达

1^#

发表于 2024-3-31 16:37 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

数据集：使用加利福尼亚房价数据集。
任务：构建一个模型预测加利福尼亚地区的房价。
挑战：尝试不同的预处理方法（标准化、归一化等）和特征选择技术来改进模型性能。
线性回归是一种预测数值型数据的经典统计方法，它假设目标值和特征之间存在线性关系。在房价预测任务中，我们可以使用线性回归模型来预测基于多个特征（如房屋大小、位置、年龄等）的房价。以下是使用加利福尼亚房价数据集进行房价预测的示例代码，以及如何应用不同的预处理方法和特征选择技术来改进模型性能。

加载和预处理数据
首先，我们从scikit-learn中加载加利福尼亚房价数据集，并进行基本的数据预处理。

from sklearn.datasets import fetch_california_housing
1 U! S( ~8 w7 X0 k2 ?2 C# J% k
, }% a1 l7 a( |3 S( i
from sklearn.model_selection import train_test_split2 B. U# {9 R+ j& t9 V3 u* s
$ J! W# q7 W) R6 g
from sklearn.preprocessing import StandardScaler
2 C: W; d5 r9 I& @8 Y4 \. a3 u
7 t% e* ~4 y2 ~7 Z* l7 g! f# \
from sklearn.linear_model import LinearRegression* x& K* T+ u1 r4 @ A1 f4 }0 m
9 D3 V# ^( W q1 B
from sklearn.metrics import mean_squared_error1 O& ?( N4 ^' F. S7 s
6 T1 ]+ b: l. T7 f! C1 u8 o. } z
5 E: p% e7 X' p) e/ }
4 z, e' H/ h6 L1 _
# 加载数据集
4 i7 q2 U& J4 o2 Q, g\\" n7 E3 \5 r
8 Y! e! c; r7 l2 e+ N; r
housing = fetch_california_housing()
! d( a! u1 O6 S4 Q5 ^: g
0 a, l\\" [! G3 `$ ?; X/ u$ g
X, y = housing.data, housing.target. z( E7 |1 J6 Y
) h5 u* E2 w: Q r1 m, b7 G& Y
7 I4 U\\" n# J0 j/ i
) o5 A% C/ V' @\\" [6 |9 R7 T- R1 G$ T/ r
# 划分训练集和测试集8 i9 K: ?0 |% l8 |$ l5 P
1 I# L6 w9 q$ }0 c# `( ?5 U
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
0 m5 v4 @; G5 W- J
$ o. h$ C4 q7 L+ z) Y' D! `1 d
' Y4 ?- I, t Z
U* A- r) Z# Q
# 数据预处理：标准化
4 h8 T9 z- H8 o4 E
; T; C& q( k b9 k
scaler = StandardScaler()
6 Q! c& {6 M$ ^. W, [5 E/ B! `
. h% _4 |; ]# Y0 z& C+ Y
X_train_scaled = scaler.fit_transform(X_train)8 t+ f4 ?\\" d\\" H2 k6 v+ _
/ |7 E: N, V# b# I2 T
X_test_scaled = scaler.transform(X_test)

from sklearn.datasets import fetch_california_housing 
1 U! S( ~8 w7 X0 k2 ?2 C# J% k
, }% a1 l7 a( |3 S( i

from sklearn.model_selection import train_test_split2 B. U# {9 R+ j& t9 V3 u* s

$ J! W# q7 W) R6 g

from sklearn.preprocessing import StandardScaler 
2 C: W; d5 r9 I& @8 Y4 \. a3 u
7 t% e* ~4 y2 ~7 Z* l7 g! f# \

from sklearn.linear_model import LinearRegression* x& K* T+ u1 r4 @  A1 f4 }0 m

9 D3 V# ^( W  q1 B

from sklearn.metrics import mean_squared_error1 O& ?( N4 ^' F. S7 s

6 T1 ]+ b: l. T7 f! C1 u8 o. }  z
 
5 E: p% e7 X' p) e/ }
4 z, e' H/ h6 L1 _

# 加载数据集 
4 i7 q2 U& J4 o2 Q, g\\" n7 E3 \5 r
8 Y! e! c; r7 l2 e+ N; r

housing = fetch_california_housing() 
! d( a! u1 O6 S4 Q5 ^: g
0 a, l\\" [! G3 `$ ?; X/ u$ g

X, y = housing.data, housing.target. z( E7 |1 J6 Y

) h5 u* E2 w: Q  r1 m, b7 G& Y
 7 I4 U\\" n# J0 j/ i

) o5 A% C/ V' @\\" [6 |9 R7 T- R1 G$ T/ r

# 划分训练集和测试集8 i9 K: ?0 |% l8 |$ l5 P

1 I# L6 w9 q$ }0 c# `( ?5 U

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) 
0 m5 v4 @; G5 W- J
$ o. h$ C4 q7 L+ z) Y' D! `1 d

' Y4 ?- I, t  Z
 
  U* A- r) Z# Q
# 数据预处理：标准化 
4 h8 T9 z- H8 o4 E
 
; T; C& q( k  b9 k
scaler = StandardScaler() 
6 Q! c& {6 M$ ^. W, [5 E/ B! `
 
. h% _4 |; ]# Y0 z& C+ Y
X_train_scaled = scaler.fit_transform(X_train)8 t+ f4 ?\\" d\\" H2 k6 v+ _

/ |7 E: N, V# b# I2 T

X_test_scaled = scaler.transform(X_test)

构建和训练线性回归模型

# 创建线性回归模型' C' U+ `' g9 O& Q) H5 N
model = LinearRegression()0 B, F, k' l. L
6 X0 b+ B6 `4 \2 V0 ?% r* b- I
# 训练模型
, _8 u5 @& {: q3 s# @- U- y2 _
model.fit(X_train_scaled, y_train)' P6 |6 x! V/ }3 I9 n
' P! M5 ~3 N: n! A( p8 N
# 预测测试集
/ r+ Y3 r6 A\" w9 v- e. M
y_pred = model.predict(X_test_scaled)5 l, d0 {5 |4 m2 z! P\" S: b9 Q+ G
0 V& M$ }5 ?1 c7 H' U, ]
# 评估模型, z: F( _\" O, u
mse = mean_squared_error(y_test, y_pred)+ Z7 H& h$ @$ o) v
print(f"Mean Squared Error: {mse}")

复制代码

挑战：尝试不同的预处理方法和特征选择
预处理方法：除了标准化，你还可以尝试归一化（MinMaxScaler）、对数转换等方法，看看它们如何影响模型的性能。
特征选择：可以使用不同的特征选择方法（如SelectKBest, SelectFromModel）来选择最有影响力的特征，这有助于模型专注于最重要的信息，提高预测准确性。

from sklearn.feature_selection import SelectKBest, f_regression' S6 L5 S S$ ?
( @: i [- z) Q2 l6 Z3 v: B3 A
# 特征选择8 S3 V8 ]0 R4 l; i: b\" p
selector = SelectKBest(score_func=f_regression, k=5)' J- W0 q; c0 |/ K( e1 D
X_train_selected = selector.fit_transform(X_train_scaled, y_train)% x+ c/ G, h7 G$ c/ y# h b
X_test_selected = selector.transform(X_test_scaled)0 z8 ^- g# b3 E9 H6 F
X. i0 k% A8 u! @
# 使用选择的特征重新训练模型
; g4 I0 W: I) d+ ?2 [. @1 `+ [
model.fit(X_train_selected, y_train)
5 f! K' Q- p# `. I/ g6 v
y_pred_selected = model.predict(X_test_selected)3 V8 s/ H+ {. M5 T3 P4 q
4 w. M4 _/ H7 N# z/ t; o' T1 j
# 评估
# |( } b+ z9 n O% T, m
mse_selected = mean_squared_error(y_test, y_pred_selected)
# y( H; g3 G) [$ ^, z |* n% d
print(f"Mean Squared Error with selected features: {mse_selected}")