杨利霞 发表于 2020-3-13 15:12

数学建模之回归分析



数学建模之回归分析

应用场景
1. 建立回归模型
1.1 筛选变量
1.1.1 确定样本空间
1.1.2 对数据进行标准化处理
1.1.3 变量筛选
1.1.4 调整复判定系数
1.2 最小二乘估计
2. 回归模型假设检验
3. 回归参数假设检验和区间估计
4. 拟合效果分析
4.1 残差的样本方差(MSE)
4.2 判定系数(拟合优度)
5. 利用回归模型进行预测
其他
偏相关系数(净相关系数)
复共线性和有偏估计方法
小结
应用场景

简单地说,回归分析是对拟合问题做的一种统计分析。
P.S. 曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间一个函数,使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定,要做的工作是由数据用最小二乘法计算函数中的待定系数。

具体地说,回归分析在一组数据的基础上研究以下问题:

1. 建立回归模型

1.1 筛选变量

1.1.1 确定样本空间


所构成的数据表可以写成一个n×m n \times mn×m维的矩阵。

1.1.2 对数据进行标准化处理

(1)数据的中心化处理
实际上就是平移变化,


这种处理,可以是样本的均值为0 00,同时它既不改变样本点的相互位置,也不改变变量间的相关性,但变换后,有许多技术上的便利。
(2)数据的无量纲化处理
在实际问题中,不同变量的测量单位往往是不同的。
为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理——使每个变量的方差为1
即,


当然,也有其他消量纲的方法,此处不一一列举。
(3)数据的标准化处理——对数据同时进行“中心化-压缩”处理
即,


1.1.3 变量筛选

——选择哪些变量作为因变量的解释变量:

一方面,希望尽可能不遗漏重要的解释变量
一方面,遵循参数节省原则(自变量数目过大时,模型计算复杂,且往往会扩大估计方差,降低模型精度),使自变量的个数尽可能少
(1)穷举法
列举出所有可能的潜在变量,再根据自变量的不同组合,选取合适的模型。
假设有m mm个潜在变量,则需要拟合与比较的方程个数为2m 2_m2
m
​       
——当m mm较大时不现实

(2)向前选择变量法






(3)向后删除变量法

(4)逐步回归法——最常用


1.1.4 调整复判定系数

1.2 最小二乘估计

一元线性回归、多元线性回归——略。

2. 回归模型假设检验

——检查自变量与因变量之间能否用一个线性关系模型表示(F FF检验)

具体检验方法见书,此处不再赘述。

3. 回归参数假设检验和区间估计

——检查每一个自变量对因变量的影响是否显著(t tt 检验)

具体检验方法见书,此处不再赘述。

4. 拟合效果分析

4.1 残差的样本方差(MSE)


4.2 判定系数(拟合优度)



5. 利用回归模型进行预测
https://img-blog.csdnimg.cn/20190826162620804.PNG?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3h4aWFuZ3l1c2I=,size_16,color_FFFFFF,t_70#pic_center


其他

偏相关系数(净相关系数)

在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数往往具有虚假性。因为它只考虑了两个变量之间的相互作用,忽略了其他变量对这两个变量的影响。

复共线性和有偏估计方法

在一些大型线性回归问题中,最小二乘估计不总令人满意,比如系数正负号与实际意义不符,这可能是因为回归自变量之间存在着近似线性关系——复共线性(Multicollinearity)

解决方法——牺牲无偏性,改用合适的有偏估计方法,以改善估计的稳定性
例如,岭估计——可以显著改善矩阵列复共线性时最小二乘估计量的均方误差,增强估计的稳定性。
(P.S. 均方误差Mean Squared Errors:一个好的估计应该具有较小的均方误差)

再如,主成分估计——可以去掉一些复共线性

小结

采用回归模型进行建模的可取步骤如下:

建立回归模型
确立样本空间,对数据进行标准化处理,采用逐步回归法筛选自变量
原文链接:https://blog.csdn.net/xxiangyusb/article/details/99762451


页: [1]
查看完整版本: 数学建模之回归分析