数学建模社区-数学中国

标题: 一份简短又全面的数学建模技能图谱：常用模型&算法总结（一）——主成分分析 [打印本页]

作者: 浅夏110 时间: 2020-5-19 14:40
标题: 一份简短又全面的数学建模技能图谱：常用模型&算法总结（一）——主成分分析
本文总结了常用的数学模型方法和它们的主要用途，主要包括数学和统计上的建模方法，关于在数学建模中也挺常用的机器学习算法暂时不作补充，以后有时间就补。至于究竟哪个模型更好，需要用数据来验证，还有求解方法也不唯一，比如指派问题，你可以用线性规划OR动态规划OR整数规划OR图与网络方法来解。

总的来说，常用主成分分析来降维，综合评价的方法有因子分析法、层次分析法、....，用蒙特卡罗方法来随机模拟求解；还应掌握数据变换、数据拟合、参数估计、插值等数据处理，线性规划、整数规划、目标规划、动态规划类问题的求解要根据已知信息找出约束条件与目标函数，图论算法也是非常常用的，组合优化算法常用于很难求出最优解的NP问题，还有一些连续离散化的技术 eg.通过插值or拟合or光滑技术【移动平均之类的】可以把离散数据连续化，通过分组【把数据划分成不同的小区间】OR差分就可以把连续数据离散化....。此外的数值分析算法eg方程组求解、矩阵运算、函数积分等算法也经常用得到。至于图像处理方法稍后再补。后面会再补一份用python进行数据分析的资料。

【1】主成分分析
目的是希望用较少的变量去解释原来资料中的大部分变异，把相关性很高的变量转化成彼此相互独立或不相关的变量，是一种降维方法。在描述数据集中的样本时，样本又叫作实例、观测，样本可以由多个属性来描述，这些又可以称为特征、指标、变量、维度，比如描述某企业的员工信息时，数据集就是所有员工信息，每个员工就是一个样本，用来描述样本信息的性别、年龄、工龄、籍贯、工资....就是特征，这些指标可能有某种程度上的相关关系，就会存在信息冗余，就需要特征选择，也就是降维，常用的降维方法有主成分分析pca, SVD奇异值分解，逐步回归。。。

主成分分析 (一）：基本思想与主成分估计方法
主成分分析（principal component analysis）是1901年Pearson对非随机变量引入的，1933年Hotelling将此方法推广到随机向量的情形，主成分分析和聚类分析有很大的不同，它有严格的数学理论作基础。主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异，将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少，能解释大部分资料中的变异的几个新变量，即所谓主成分，并用以解释资料的综合性指标。由此可见，主成分分析实际上是一种降维方法。

1 基本思想及方法

1 确定各个主成分的方法
一个主成分不足以代表原来的 p 个变量，因此需要寻找第二个乃至第三、第四主成分，第二个主成分不应该再包含第一个主成分的信息，统计上的描述就是让这两个主成分的协方差为零，几何上就是这两个主成分的方向正交。具体确定各个主成分的方法如下。

2 注意事项
1）主成分分析的结果受量纲的影响，由于各变量的单位可能不一样，如果各自改变量纲，结果会不一样，这是主成分分析的大问题，回归分析是不存在这种情况的，所以实际中可以先把各变量的数据标准化，然后使用协方差矩阵或相关系数矩阵进行分析。

2）为使方差达到大的主成分分析，所以不用转轴（由于统计软件常把主成分分析和因子分析放在一起，后者往往需要转轴，使用时应注意）。

3）主成分的保留。用相关系数矩阵求主成分时，Kaiser主张将特征值小于1的主成分予以放弃（这也是SPSS软件的默认值）。

4）在实际研究中，由于主成分的目的是为了降维，减少变量的个数，故一般选取少量的主成分（不超过5或6个），只要它们能解释变异的70％～80％（称累积贡献率）就行了。  下面我们直接通过主成分估计（principle estimate）进一步阐述主成分分析的基本思想和相关概念。

2  主成分估计
主成分估计（principal component estimate）是Massy在1965年提出的，它是回归系数参数的一种线性有偏估计（biased estimate），同其它有偏估计，如岭估计（ridge estimate）等一样，是为了克服小二乘（LS）估计在设计矩阵病态（即存在多重共线性）时表现出的不稳定性而提出的。

主成分估计采用的方法是将原来的回归自变量变换到另另一组变量，即主成分，选择其中一部分重要的主成分作为新的自变量（此时丢弃了一部分，影响不大的自变量，这实际达到了降维的目的），然后用小二乘法对选取主成分后的模型参数进行估计，后再变换回原来的模型求出参数的估计。

单参数主成分估计
理论上表明：主成分估计在设计阵病态时优于LS估计，但（31）在特征值为1的附近存在跳跃，会影响计算的稳定性，杨虎在1989年给出的单参数主成分估计解决了这个问题。

例3 Hald水泥问题，考察含如下四种化学成分

相关系数阵的四个特征值依次为2.2357，1.5761，0.1866，0.0016。最后一个特征值接近于零，前三个特征值之和所占比例（累积贡献率）达到0.999594。于是我们略去第4个主成分。其它三个保留的特征值对应的三个特征向量分别为

对Hald数据直接作线性回归得经验回归方程

再由（31）式计算出主成分估计，即可获得如下主成分回归方程

两个方程的区别在于后者具有更小的均方误差，因而更稳定。此外前者所有系数都无法通过显著性检验。  计算的MATLAB程序如下：
clc,clear
load sn.txt  %把原始的x1,x2,x3,x4,y的数据保存在纯文本文件sn.txt中
[m,n]=size(sn);num=3; %num为选取的主成分的个数
mu=mean(sn);sigma=std(sn);
snb=zscore(sn); %数据标准化
b=snb(:,1:end-1); %x1,x2,x3,x4的数据赋给b
r=cov(b);  %标准化数据的协方差阵就是相关系数阵
[x,y,z]=pcacov(r);
f=repmat(sign(sum(x)),size(x,1),1);
x=x.*f;
%以下是普通的小二乘法回归
r=[ones(m,1),b]\snb(:,end);  %标准化数据的回归方程系数
bzh=mu./sigma;
ch10=mu(end)-bzh(1:end-1)*r(2:end)*sigma(end)  %原始数据的常数项
fr=r(2:end);fr=fr';
ch1=fr./sigma(1:end-1)*sigma(end) %原始数据的x1,x2等等系数
%以下是主成分回归
pval=b*x(:,1:num);
rp=[ones(m,1),pval]\snb(:,end);  %主成分数据的回归方程系数
beta=x(:,1:num)*rp(2:num+1);          %标准化数据的回归方程系数
ch20=mu(end)-bzh(1:end-1)*beta*sigma(end)  %原始数据的常数项
fr=beta';
ch2=fr./sigma(1:end-1)*sigma(end) %原始数据的x1,x2等等系数
check1=sqrt(sum((sn(:,1:end-1)*ch1'+ch10-sn(:,end)).^2)/(m-n))
check2=sqrt(sum((sn(:,1:end-1)*ch2'+ch20-sn(:,end)).^2)/(m-num-1))

主成分分析法（二）：计算步骤
主成分分析法的步骤
1）对原始数据进行标准化处理

其中 $\bar{x_{j}}=\frac{1}{n}\sum_{i=1}^{n}x_{ij},\, \, s_{j}=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_{ij}-\bar{x_{j}})^{2}},\:(j=1,2,...,m)$ , 即分别为第j个指标的样本均值和标准差。

2）计算相关系数矩阵R

3）计算特征值和特征向量
特征值要由大到小排序

4）选择 p （ p ≤ m ）个主成分，计算综合评价值

h

matlab实现主成分分析的pcacov( )函数
clc,clear
load gj.txt %把原始数据保存在纯文本文件gj.txt中
gj=zscore(gj); %数据标准化
r=corrcoef(gj); %计算相关系数矩阵
[x,y,z]=pcacov(r);
f=repmat(sign(sum(x)),size(x,1),1);
x=x.*f;
df=gj*x(:,1:4)
tf=df*z(1:4)/100;
[stf,ind]=sort(tf,'descend')

————————————————
版权声明：本文为CSDN博主「wamg潇潇」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_29831163/article/details/88900766

欢迎光临数学建模社区-数学中国 (http://www.madio.net/)