查看: 2780|回复: 0

偏最小二乘回归分析

字体大小: 正常放大

1189 主题	4 听众	2934 积分

该用户从未签到

电梯直达

1^#

发表于 2023-11-30 16:59 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

偏小二乘回归提供一种多对多线性回归建模的方法，特别当两组变量的个数很多，且都存在多重相关性，而观测数据的数量（样本量）又较少时，用偏小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。
偏小二乘回归分析在建模过程中集中了主成分分析，典型相关分析和线性回归分析方法的特点，因此在分析结果中，除了可以提供一个更为合理的回归模型外，还可以同时完成一些类似于主成分分析和典型相关分析的研究内容，提供更丰富、深入的一些信息。

import numpy as np
from sklearn.cross_decomposition import PLSRegression( E& I! \* J* u1 B. b+ @6 y5 l
from sklearn.preprocessing import StandardScaler
2 N5 w& M; q. L& I+ m2 D) @# v8 O8 u: V
import matplotlib.pyplot as plt
0 S* t$ R1 F5 P9 A
+ t5 Q) ^& ~% B
# 原始数据，自变量X和因变量y
% t `3 A3 b+ I' I& A5 j8 ^
X = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])9 U. D. k. k8 }2 @. F. O
y = np.array([1, 2, 3, 4])
* j2 [, V p1 z
: W- B5 @0 }2 x& S
# 对自变量进行标准化处理\\" e! M& g) R# S, i/ L0 _3 U8 i\\" W
scaler = StandardScaler()
0 w9 a$ n. S, B5 w# b- D
X_scaled = scaler.fit_transform(X)
, M% Z8 V% t* E( H; B7 S
+ u# Z1 X2 G- O9 h
# 创建PLSRegression对象，并指定主成分个数为2
& M$ Z' X, @5 ?1 A% y
pls = PLSRegression(n_components=2)
; p& @6 p7 X5 E- F
1 K$ n3 M \- S( b K' Y! s6 e
# 进行偏最小二乘回归分析
! i9 O% i& e+ @# {( t) c
pls.fit(X_scaled, y)7 X8 k8 j9 E1 c5 s& f' s
. W* z4 J' j7 q c s# { B2 F
# 获得预测值) |\\" \: G$ t: u# |, q
y_pred = pls.predict(X_scaled)
; r: o9 |7 x, v5 s- G. H1 G
/ G; g* I8 P: _3 Z, T
# 绘制原始数据和预测值) M$ z) u; C2 j
plt.figure(figsize=(8, 6))
7 ~) O7 M3 |7 D7 m' p, e
plt.scatter(y, y_pred, c='b', label='Predicted vs. Observed')
, x3 P: e% {7 E% \ [
plt.plot([min(y), max(y)], [min(y), max(y)], 'k--', lw=2, label='Perfect Fit')% o9 C& u\\" V- Q( n: E% X
plt.xlabel('Observed')
' f2 g. }& j i/ w& A$ J, A
plt.ylabel('Predicted')
# U! n$ ]0 P' ^* q$ j1 Q\\" M6 D
plt.title('PLS Regression')
) `\\" q7 G2 K( K Y! K3 U
plt.legend()
, u: O( u4 }+ C4 K1 M+ a+ z
plt.grid(True)
+ m2 n* h5 Q- M6 h
plt.show()
% S+ I& _# I6 @5 @
5 x, M6 |\\" `1 c+ X4 p

import numpy as np 
6 |$ ^, M$ y4 T1 J0 _0 O$ `2 g\\" f4 f: m
from sklearn.cross_decomposition import PLSRegression( E& I! \* J* u1 B. b+ @6 y5 l

from sklearn.preprocessing import StandardScaler 
2 N5 w& M; q. L& I+ m2 D) @# v8 O8 u: V
import matplotlib.pyplot as plt 
0 S* t$ R1 F5 P9 A
 
+ t5 Q) ^& ~% B
# 原始数据，自变量X和因变量y 
% t  `3 A3 b+ I' I& A5 j8 ^
X = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])9 U. D. k. k8 }2 @. F. O

y = np.array([1, 2, 3, 4]) 
* j2 [, V  p1 z
 
: W- B5 @0 }2 x& S
# 对自变量进行标准化处理\\" e! M& g) R# S, i/ L0 _3 U8 i\\" W

scaler = StandardScaler() 
0 w9 a$ n. S, B5 w# b- D
X_scaled = scaler.fit_transform(X) 
, M% Z8 V% t* E( H; B7 S
+ u# Z1 X2 G- O9 h

# 创建PLSRegression对象，并指定主成分个数为2 
& M$ Z' X, @5 ?1 A% y
pls = PLSRegression(n_components=2) 
; p& @6 p7 X5 E- F
1 K$ n3 M  \- S( b  K' Y! s6 e

# 进行偏最小二乘回归分析 
! i9 O% i& e+ @# {( t) c
pls.fit(X_scaled, y)7 X8 k8 j9 E1 c5 s& f' s

. W* z4 J' j7 q  c  s# {  B2 F

# 获得预测值) |\\" \: G$ t: u# |, q

y_pred = pls.predict(X_scaled) 
; r: o9 |7 x, v5 s- G. H1 G
/ G; g* I8 P: _3 Z, T

# 绘制原始数据和预测值) M$ z) u; C2 j

plt.figure(figsize=(8, 6)) 
7 ~) O7 M3 |7 D7 m' p, e
plt.scatter(y, y_pred, c='b', label='Predicted vs. Observed') 
, x3 P: e% {7 E% \  [
plt.plot([min(y), max(y)], [min(y), max(y)], 'k--', lw=2, label='Perfect Fit')% o9 C& u\\" V- Q( n: E% X

plt.xlabel('Observed') 
' f2 g. }& j  i/ w& A$ J, A
plt.ylabel('Predicted') 
# U! n$ ]0 P' ^* q$ j1 Q\\" M6 D
plt.title('PLS Regression') 
) `\\" q7 G2 K( K  Y! K3 U
plt.legend() 
, u: O( u4 }+ C4 K1 M+ a+ z
plt.grid(True) 
+ m2 n* h5 Q- M6 h
plt.show() 
% S+ I& _# I6 @5 @
5 x, M6 |\\" `1 c+ X4 p

在上述代码中，我们首先定义了原始数据矩阵X和因变量向量y，然后创建了一个PLSRegression对象并指定保留的主成分个数为2。接下来，使用fit()方法进行偏最小二乘回归分析，并使用coef_属性获取回归系数。最后，使用predict()方法对原始数据进行预测，并获得预测值y_pred。请根据实际情况调整原始数据和保留的主成分个数，并根据需要对结果进行解释和分析。
运行上述代码，将绘制散点图来展示观察值（原始数据）与预测值之间的关系。如果模型拟合良好，散点图中的点应该基本落在对角线上。如果点主要集中在对角线上方，则预测值高估了观察值；如果点主要集中在对角线下方，则预测值低估了观察值。在理想情况下，所有点都应该在对角线上。