因子分析方法
第十章 因子分析法☆ 引 言 ● 因子分析是研究相关矩阵的内部依赖关系,它将多个变量综合为少数几个“因子”,以再现原始变量与“因子”之间的相关关系。在统计学领域内,它是属于多元分析的范畴。本章包括:
10.1 通俗概述 10.2 方法原理
10.3 因子载荷的统计意义 10.4 方差最大正交旋转
10.5 Promax斜旋转 10.6 因子得分 10.7 应用实例
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/images/Econom13.gif
10.1 通俗概述
因子分析主要是由心理学家发展起来的, 1904年Chales Spearman提出这种方法用来解决智力测验得分的统计分析。目前因子分析在心理学、社会学、经济学、人口学、地质学、生理学,甚至在化学和物理学中都取得了功的应用,它的主要应用有二个方面,一是寻求基本结构、简化观测系统。给定一组变量或观测数据,我们要问,变量的维数是否一定需要这么多,是否存在一个子集,特别是一个加权子集,来解释整个问题。通常采用因子分析的方法将为数众多的变量减少为几个新因子,以再现它们之间的内在联系,二是用于分类,将变量或者样本进行分类,根据因子得分值,在因子轴所构成的空间中进行分类处理。
因子分析与主成分分析有很大的区别,主成分分析不能作为一个模型来描述,它只能作为通常的变量变换,而因子分析需要构造因子模型;主成分分析的主分量数M和变量数P相等,它是将一组具有相关性的变量变换为一组独立的变量,而因子分析的目的是要使M比P小,而且要尽可能地选取小的M,以便尽可能地构造一个结构简单的模型,主成分分析是将主分量表示为原观测变量的线住组合,而因子分析是将原观测变量表示为新因子的线性组合,即为新因子的综合指标。所以因子分析是主成分分析的发展。
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/images/Econom13.gif
10.2 方法原理
因子分析的结果不仅是要给出因子模型,而且还要得出变量和因子间的相关系数,这些相关系数构成“因子结构”。
一个完全的因子解包括因子模型和因子结构两个方面,因子结构反映变量与因子间的相关关系,而因子模型则是以回归方程的形式将变量表为因子的线性组合。
因子分析的基本问题是用变量之间的相关系数未决定因子载荷。
因子模型的求解过程如下:
设原始数据矩阵为:
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt11.gif
p表示样本数,n表示变量数。
将原始数据进行标准化变换。
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt12.gif
其中:
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt13.gif
经标准化变换后xij'的均值为0,方差为1,这样相关矩阵R和协方差矩阵S完全一样。这时相关矩阵:
R=X·X' (10.2.2)
(为方便计,假定经标准化处理后的矩阵仍记为X)。
求解R矩阵的特征方程组|R-λI|=0,记特征值为λ1>λ2>...>λp≥0,特征向量矩阵为
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt14.gif
这样有关系:
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt15.gif
U为正交矩阵,并且满足:
U'U=UU'=I
即有:
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt16.gif (10.2.3)
将(10.2.3)式两边左乘以U’,右乘以U得:
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt17.gif mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt18.gif
令F=U'X
于是(10.2.4)式变为
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt19.gif
F为主因子阵,并且Fα=U'X。(α=1,2,...n),即每一个Fα为第α个样品主因子观测值。
在因子分析中,通常只选其中m个(m<p)主因子。就是根据变量的相关选出第一主因子F1,使其在各变量的公共因子方差中所占的方差贡献为最大,然后消去这个因子的影响,而从剩余的相关中,选出与F1不相关的因子F2,使其在各个变量的剩余因子方差贡献中为最大,……这样直到各个变量公共因子方差被分解完毕为止。
例如我们按所选取的主因子的信息量的和占总体信息量的85%,即有:
这样的M,使得:
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt110.gif
这们个主因子将U矩阵剖分为:
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt111.gif
由F=U'X将此式两端左乘U得之:
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt112.gif
其中U(1)F(1)为m个主因子所能解释的部分,而U(2)F(2)为其残余部分。
记残余部分为:
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt113.gif
则有:
X=U(1)F(1)+ε (10.2.5)
(10·2·5)式称为因子模型,U(1)称为因子载荷矩阵,F(1)称为主要因子,ε为特殊因子。
因子模型的表达式即为(略去特殊因子):
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt114.gif
特征向量ui通常用单位向量表示,须进行规格化处理,即
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt115.gif
所以,因子载荷矩阵为。
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt116.gif
因此,R型的因子模型即为。
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt117.gif
在因子模型中:
(1)F1、F2、...Fm叫做公共因子,它是在各个变量中共同出现的因子,它为高维空间中所张起的互相垂直的M个坐标轴。
(2)aij叫因子载荷,它是第i个变量在第j个主因子上的负荷,或者叫第i个变量在第j个主因子上的权,它反映了第i个变量在第j个主因子上的相对重要性。如果把xi看成m维因子空间上的一个向量,则aij表示xi在坐标轴Fj上的投影。
(3)εi为特殊因子,它相互独立地遵从正态分布N(0,σ2),ai为特殊固子的载荷。
在主成分分析中,公共因子数等于变量数,没有特殊因子,而在因于分析中,公共因子数少于变量数,有各变量的特殊因子,并且因子模型是将原始变量表为新因子的线性组合。
例10-1研究影响火柴销售的变量之间的关系。火柴是人民生活的必需品,商品虽小,但与日常生活关系十分密切,该商品易燃、易潮,较难储存,经营面广、量大,价格低,易受其他日用市场冲击的影响,供应脱节并影响其他旧用工业品销售,因此为了研究火柴需求量的变化趋势,需研究影响火柴销售量的变量之间的关系。
影响火柴销售量的主要指标有:煤气、液化气户数、卷烟销售量、蚁香销售量、打火石钥售量。调查从1963年至1982年共20个年头的数据,即选择的变量数p=4、样本数N=20,进行因子分析。
原始数据见表10-1。
表10-1 影响火柴销售量的原始数据
编号煤气液化气户数卷烟销售量蚊香销售量火石销售量
111.1114.345.1020.41213.6317.154.9026.94
316.9917.455.0625.75
421.1218.055.3225.98
524.8620.427.4816.18
625.6823.6010.104.18
725.7723.4213.312.43
825.8822.099.496.50
927.4321.4311.0925.78
1029.9524.9614.4828.16
1133.5328.3716.9724.26
1237.3142.5720.1630.18
1341.1645.1626.3917.08
1445.7352.4627.047.39
1550.5945.3023.083.88
1658.8246.8024.4610.53
1765.2851.1133.8220.09
1871.2553.2933.5721.22
1973.3755.3639.5912.63
2076.6845.0048.4911.17
原始数据经标准化处理后,计算其相关系数矩阵,如表10.2
表10.2 相关系数矩阵
1234
110.9390.964-0.2661
20.93910.9407-0.2754
30.9640.94071-0.2568
4-0.2661-0.2754-0.25681
由表10.2,变量x1、x2、x3三个变量彼此间的相关性很强,而变量x4与前三个变量
表现为负相关。
求解相关矩阵的特征方程,得到特征向量矩阵为:
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt118.gif
相应的特征值、占总体的百分比、累计百分比如表10.3所示。
表10.3特征值及百分比表
序号特征值占总体的百分比累计百分比
13.002075.0575.05
20.894122.3597.40
30.06791.6999.10
40.03580.89100
根据表10.3选择两个主因子(第一主因子和第二主因子),它们反映的信息量已占
总体信息量的97.4%,即几乎完全反应了四个变量的总信息量。由此选出的两个主因子,得到因子在和矩阵为·
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt119.gif mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt120.gif
因子模型(对特殊因子忽略不计)为:
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt121.gif
从因子载荷矩阵看出,第一主因子主要由前三个变量所决定,而前三个变量彼此间相关性很强,因此在作火柴销售预测时,只需选取三个变量中的任一个变量就可以了。第二个主因子主要由第四个变量所决定,该变量在主因子上的载荷为0.9213。
附SPSS操作说明:
在Statistics菜单下选择Data Deduction,然后选择Factor过程。Factor过程的选择项共分为五类,分别使用主对话框中的五个子对话框按钮展开相应的子对话框进行选择。
☆Descriptives展开相应的子对话框可以选择单变量的描述统计量和初始分析结果。
☆Extraction展开相应的子对话框可以选择不同的提取公因子的方法和控制提取结果的判据。
☆Rotation展开相应的子对话框可以选择因子旋转方法。
☆Scores展开相应的子对话框可以要求计算因子得分,选择显示或作为新变量保存。
☆Option展开相应的子对话框可以进一步选择各种输出项。
下面就这几个子对话框分别说明其中的选择项的含义或功能。
1.Descriptives 子对话框中的选择项
描述统计量分的选择项为两组:
(1)Statistics 统计量组,共有两项供选择:
①Univariate descriptives 单变量描述统计量,选择此项可以输出参与分析的各原始变量的均值、标准差等。
②Initial solution 初始分析结果,选择此项可以给出原始变量的公因子方差、与变量数目相等的因子、各因子的特征值、各因子特征值占总方差的百分比以及累积百分比。
(2) Corelation Matrix 相关矩阵组
①Coefficients 相关系数选择此项给出原始变量间的相关系数矩阵。这是分析的基础。
②Significance levels 显著性水平选择此项给出每个相关系数相对于相关系数为0的假设检验的概率水平。
③Determinant 相关系数矩阵的行列式。
④Inverse 相关系数矩阵的逆矩阵。
⑤Reproduced 再生相关阵,选择此项给出因子分析后的相关阵,还给出残差,即原始相关与再生相关之间的差值。
⑥Anti-image 反映象相关阵。包括偏相关系数的负数;反映象协方差阵,包括偏协方差的负数;在一个好的因子模型中除对角线上的系数较大外,远离对角线的元素应该比较小。
⑦KMO and Bartlett's test of sphericity KMO和球形Bartlett检验。选择此项给出对采样充足度的Kaisex-Meyer-Olkin测度。检验变量间的偏相关是否很小。Barllet球形检验,检验的是相关阵是否是单位阵。它表明因子模型是否是不合适宜的。
Continue按钮确认选择,返回主对话框;Cancel按钮使选择作废,返回主对话框。
2.Extraction 因子提取子对话框
有关因子提取的选择项共分四部分。
(1)因子提取方法选择项
子对话框第一项Methed:是一组指定提取方法的选择项。单击矩形框右面的箭头可以展开提取方法选择项表,提供七种提取方法可以选择:
①Principal components 主成份法。该方法假设变量是因子的纯线性组合。
②Unweighted least square 不加权最小平方法。该方法使观测的和再生的相关阵之差的平方最小。
③Generalized least squares用变量的单值加权,使观测的和再生的相关阵之差的平方最小。
④Maximum likelihoud 最大似然法。此方法不要求多元正态分布。给出参数估计,如果样本来自多元正态总体它们与原始变量的相关阵极为相似。
⑤Principal Axis factoring 使用多元相关的平方作为对公因子方差的初始估计。
⑥Alpha α因子提取法
⑦Image 映象因子提取法。是根据变量映象的概念提取公因子的方法。把一个变量看
作其它各变量的多元回归。
(2) Extract 控制提取进程和提取结果的选择项
理论上因子数目与原始变量数目相等,但因子分析的目的是用少量因子代替多个原始变量,选择提取多少个因子由本组选择项决定。
①Eigenvalues over 该选择项指定提取的因子的特征值。在此项后面的矩形框中给出系统默认值为1即要求提取那些特征值大于1的因子。指定特征值决定提取因子数目的方法是系统默认的方法。
②Number of factors 该选择项指定提取公因子的数目。用鼠标单击选择此项后,将指定的数目键人到该选择项后面的矩形框中。
(3)Display 指定与因子提取有关的输出项
①Unrotated factor solution 要求显示未经旋转的因子提取结果,此项为系统默认的输出项。
②Screen plot 要求显示按特征值大小排列的因子序号与特征值为两个坐标轴的碎石图。
(4)Maximum iterations for Convergence
因子分析收敛的最大迭代次数,系统默认的最大迭代次数为25。
Continue 按钮确认所有选择,返回主对话框;Cancel按钮作废本次所有选择,返回主对话框。
3. Rotation 旋转方法选择子对话框
Rotation旋转方法选择子对话框选择项分三组。
(1) Methed 旋转方法选择项
①None不进行旋转。此为系统默认的选择项。
②Varimax 方差最大旋转
③Equamax 平均正交旋转
④Quartmax 四次方最大正交旋转
⑤Direct Oblimin 斜交旋转,指定此项可以在下面的矩形框中键入Delta值,该值应该在0~1之间,是因子映象自相关的范围。0值产生最高相关因子,大负数产生旋转的结果与正交接近。
(2)Display 有关输出显示的选择项
①Rotated solution 旋转结果。指定此项将对正交旋转显示旋转后的因子矩阵模式、因子转换矩阵;对斜交旋转显示旋转后的因子矩阵模式、因子结构矩阵和因子间的相关阵。
②Loding plot(s) 因子载荷散点图。指定此项将给出以两两因子为坐标轴的各变量的载荷散点图。如果有两个因子,给出各原始变量在Factorl-Factor2坐标系中的散点图,如果多于两个因子,则给出三维因子载荷散点图。
(3) Maximum iterations for Convergence:旋转收敛的最大迭代次数。系统默认值为2。可以在此项后面的矩形框中键入指定值。
4.Factor scores 有关因子得分的选择项
有关因子得分的选择项在Factor scores子对话框中。
选择项共分三组:
(1) Save as variables 选择此项,将因子得分作为新变量保存在数据文件中。程序运行结束后,在数据窗中显示出新变量。对每一次分析产生一组新变量,用最后一个数字字符表示分析的顺序号。每次分析中产生多少个因子,就生成多少个新变量,因子序号占倒数第三个字符的位置。倒数第二个字符为“_”。在输出窗中给出对因子得分的命名解释。
(2) Methed 指定计算因子得分的方法。可供选择的方法有:
①Regression 回归法。其因子得分的均值为0。方差等于估计因子得分与实际因子得分之间的多元相关的平方。
②Bartlett巴特利特法。因子得分均值为0。
③Andeson-Rubin 安德森一鲁宾法。是为了保证因子的正交性而对巴特利特因子得分的调整。其因子得分的均值为0,标准差为1。
(3)Display factor score coefficient matrix 选择此项将在输出窗中显示因子得分系数矩阵。是标准化的得分系数,原始变量值进行标准化后,可以根据该矩阵给出的系数计算各观测量的因子得分。
5.Options 有关输出的选择项
有关输出方式以及对带有缺失值的观测量处理方法的选择项均在Options子对话框中。
(1)Missing Values 缺失值处理方法选择项共有三个:
①Exclude cases listwise 选择此项,在分析过程中对那些变量中有缺失值的观测量一律剔除。所有带有缺失值的观测量都不参与分析。
②Exclude cases pairwise 选择此项,成对剔除带有缺失值的观测量。换句话说,在计算两个变量的相关系数时,只把这两个变量中带肴缺失值的观测量剔除。如果一个观测量在正进行相关系数的变量中没有缺失值,其它变量中带有缺失值,那么不影响当前相关系数的计算。
③Replace wlth mean 选择此项,用该变量的均值代替工作变量的所有缺失值。
(2)Coefficient DiDisplay Format这一组选择项决定相关系数的显示格式:
①Sorted by size 选择此项,系数按其数值的大小排列。
②Suppress absolute values less than:选择此项,不显示那些绝对值小于指定值的相关系数,选择此项需要在该项右面的矩形框中键人临界值。系统默认的临界值为0.10。
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/images/Econom13.gif
10.3 因子载荷的统计意义
在因子模型中,假定原始数据已标准化,即原始变量的均值为0,方差为1。并且假定各公共因子和特殊因子都已标准化,即平均值为0,方差为1,在此基础上,我们可进一步讨论与因子载荷有关的一些量的统计意义。
1.因子载荷的统计意义
因子载荷矩阵:
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt122.gif
因子载荷aij表示第i个变量和第j个公共因子的相关系数。
即 rxiFj=aij
aij越大表示公因子Fj与变量的关系越密切,如(10.2.7)式中所表示的载荷矩阵,第一主因子F1与变量x1、x2、x3都较留切,而F1与x4的关系不够密切。
2.变量共同度的统计定义
因子载荷矩阵中各行元素的平方和。
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt123.gif
称为变量x1、x2、...xp的共同度。
计算每一个变量xi的方差:
Dxi=ai12DF1+ai22DF2+...+aim2DFm+ai2Dεi
由于假设原始变量xi和主因子、特殊因子也都进行标准化处理,所以有:
1=hi2+ai2
即变量xi的方差由两部分组成,第一部分为共同度hi2,它是全部公因子对变量xi的总方差的贡献,如公因子的方差接近于1,则说明该变量的几乎全部原始信息都被所选取的因子说明了。如载荷矩阵中h1=0.97,即变量x1的97%的信息量被第一主因子和第二主因子说明。
第二部分是特殊因子的方差,仅与变量xi本身的变化有关,它是变量xi的方差为1的补充值,当不考虑特殊因子时,公因子方差hi<1(i=1,2,...p)。
公因子方差的意义在于说明当由原始变量空间转为因子空间后,保留原来各变量的信息有多少,当hi越接近于1时,说明空间转化性质越好。
3.公因子Fj的方差贡献统计意义
各列元素的平方和Sj为公因子Fj的方差贡献。
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt124.gif
Sj是公因子Fj对诸原始变量所提供方差贡献的总和。它是衡量公因子相对重要性的指标,它等于公因子Fj所对应的特征值,即
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt125.gif
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/images/Econom13.gif
10.4 方差最大正交旋转
主因子分析的目的不仅是找出主因子,更重要的是知道每个主因子的意义。但是用上述方法所求出的主因子解,初始因子载荷矩阵并不满足“简单结构准则”,各因子的典型代表变量不很突出,因而容易使因子的意义含糊不清,不便于对因子进行解释。为此须对因子载荷矩阵施行旋转,使得因子载荷的平方按列向0和1两极转化,达到其结构简化的目的。
采用方差最大旋转(Varimax rotation),使因子载荷矩阵中,各因子载荷值的总方差达到最大作为因子载荷矩阵简化的准则。这里总方差最大,而不是某一因子方差极大。即是说,如果第i个变量在第j个公因子上的载荷经过“方差极大”旋转后其值增大或减小,意味着这变量在另一些因子上的载荷要缩小或增大。所以,“方差极大”旋转是使载荷按列向0、 1两极分化,同时也包含着按行向两极分化。
设因子载荷矩阵为:
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt126.gif
bij为经过方差极大正交旋转后所得到的因子载荷矩阵B的元素。
某一因子Fj的简化可由因子载荷平方的方差来表示。
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt127.gif
如果Vj为极大值,则此Fj因于具有简化性,它的载荷值或是趋于1或是趋于0。
例10-1中的载荷矩阵进行方差极大旋转,经过二次正交旋转即收敛。
第一次旋转的总方差值:V1=0.260395
第二次旋转的总方差值:V2=0.347423
旋转后的正交载荷矩阵为:
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt128.gif
旋转结果明显将因子载荷向1和0两极方向分化,这样便于给予明确的经济意义上的解释。
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/images/Econom13.gif
10.5 Promax斜旋转
在方差极大旋转过程中,因子轴互相正交,始终保持初始解中因子间不相关的特点,然而在社会学、经济学、心理学等科学领域内,斜交因子是普遍规律,即相互影响的各种因素不大可能是彼此无关的,各种事物变化的各种内在因素之间始终存在着错综复杂的联系,因此需要介绍斜交因子解,即将变量用相关因子进行线性描述,使得到的新因子模型最大程度地模拟自然模型。
1.斜交因子模型和斜交因子解
如果p个相关变量x1、x2、...xp,用M个相关斜交公因子T1、T2、...Tm表示。
斜交因子模型为:
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt129.gif
T1为斜交公因子,bij为斜交因子载荷,它表示变量xi的向量pi在斜因子轴Tj上的坐标,在斜交因子轴情况下,坐标和投影,即模型和结构之间有差别.如图10-1所示,T2是斜因子轴,pi为因子空间中表示变量xi的向量(pi的长度|Opi|=1),pi在OT1T2上的坐标为OQ、OR,坐标值可正、可负,且绝对值可以大于1。而pi在OT1T2上的投影为OM、ON,坐标值也可正、可负,但绝对值不能大于1。而在正交因子空间中,坐标值和投影值一致,即因子模型和因子结构是一回事,无需区分这两者。所以一个完全斜交因子解必须包括因子模型和因子结构两大部分。
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt130.gif
图10-1
例1中两个正交因子(M=2)经过Promax斜旋转,得到斜交因子相关阵为:
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt131.gif
斜交因子结构如表10.4所示:
表10.4 斜交因子结构
变量第一斜交因子第二斜交因子
煤气液化气户数0.9999-0.2610
卷烟销售量0.9999-0.2740
蚊香销售量0.9999-0.2511
火石销售量-0.27090.9999
由表10.4知,斜旋转的结果与正文旋转结果基本一致,第一主因子仍主要由变量x1、x2、x3表征,第二主因子仍主要由变量x4所表征。
斜交因子模型如表10.5所示:
表10.5 斜交因子模型
变量第一斜交因子第二斜交因子
煤气液化气户数1.000020.0011
卷烟销售量0.9965-0.0128
蚊香销售量1.00300.0117
火石销售量-0.00940.9974
因子模型矩阵是把变量表为斜因子的线性组合,所以例1的斜交因子模型为。
x1=1.0002T1+0.0011T2
x2=0.0095T1-0.0128T2
x3=1.0030T1+0.0117T2
x4=-0.0094T1+0.9974T2
由此说明:煤气、液化气户数主要由斜因子1提供,而打火石销售量主要由斜因子2提供。
10.6 因子得分
因子分析是将变量表为公共因子的线性组合。由于公因子能充分反映原始变量的相关关系,用公因子代表原始变量时,更有利于描述研究对象的特征,因而、反过来将公共因子表示为变量的线性组合(如同主成分分析一样),即用:
Fj=βj1x1+βj2x2+...βjpxp
(j=1,2,...,m)
来计量各个样品的公因子得分。上式为因子得分函数。
由于上式中方程的个数少于变量个数,因此,只能在最小二乘意义下对因子得分进行估计。Thomson(1939年)假设因子可以对p个变量作回归,即建立回归方程:
由于变量和主因子均已标准化,所以有:
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt132.gif
由最小二乘估计有:
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt133.gif
这里
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt134.gif
为原变量的相关系数矩阵。
A'=(aij)mxn
当因子正交时,A’为旋转后的因子载荷矩阵A的转置,当因子斜交时,A'为因子结构矩阵的转置。
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt135.gif
例1中数据的正交因子得分表如表10.6所示。
表10.6 正交因子得分表
样本编号mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt20.gifmhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt20.gif
1-1.31010.2160
2-1.08170.9823
3-1.03420.8543
4-0.93920.8939
5-0.9200-0.2179
6-0.9501-1.5888
7-0.9044-1.7735
8-0.9673-1.3245
9-0.59870.9241
10-0.33051.2305
11-0.17620.8058
120.48121.5381
130.55320.0672
140.6959-1.0321
150.4078-1.4581
160.7313-0.6557
171.35370.5286
181.52780.6765
191.6269-0.2774
201.8347-0.3891
根据因子得分表,以F1和F2为因子轴做因子得分图、如图10-2所示。它将20个抽样样本分为三类、一类以F1得分是负值、F2得分是正值为特征;另一类是以F1得分是正值为主要特征;再一类是以F1和F2得分都是负值为特征。由因子得分图可提供一个样本分类的参考图形。
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt136.gif
10.7 应用实例
例10-2 影响小春粮食产量的指标有九个:小春粮食播种面积、小麦播种面积、小麦良种推广比例、化肥用量、肥猪出栏、农业人口、耕牛数、小麦抽穗扬花期气温、小麦抽穗扬花期降水量。抽取从1952年~1957年和从1960年~1981年共28个年头的数据,采用因子分析研究变量之间的相关关系。原始数据如表10.7所示。
表10.7 原始数据表
编号小春播种面积小麦播种面积小麦良种比例化肥用量肥猪出栏农业人口耕牛数抽扬期气温抽扬期水量
14088156926.9.376485694.0459.017.046.924216168528.01.0311465839.0465.115.169.7
34233170228.12.3013085894.3490.515.273.1
44284186330.42.4712196008.9492.714.758.3
54639203432.95.4610536096.1509.716.463.6
64786207332.56.8610806188.5515.616.152.0
74995270843.417.163245552.3503.515.840.5
84919260842.418.282145487.4473.215.564.1
94672235140.324.553835672.4473.815.259.7
104328209738.835.567545849.7502.016.169.4
114295206738.844.6512566042.9523.916.861.9
124170192036.867.9715246227.7552.415.855.7
133909180637.0119.5416986413.0574.816.328.3
144063200339.4105.2517286627.2587.415.062.0
153887190039.158.7215846875.8600.114.285.6
163872189039.198.5316297115.7605.216.474.6
173937196439.9123.3016107356.9617.513.649.4
184039209441.5168.4015397567.7641.716.333.6
194354249645.9168.1518987770.4641.015.471.6
204465260446.7208.3819748002.2633.017.183.0
214436260549.9205.8118958205.5625.115.862.7
224367258050.2231.3818078402.5615.216.138.5
234590278451.6243.9617548504.4601.913.842.1
244663280854.2365.2818318566.0582.315.481.0
255041306054.6479.2321558575.2594.815.938.4
265257342858.7542.8627368594.9626.015.451.5
274819326160.9570.0031008615.0627.015.239.2
284486305580.0580.0032008670.0627.013.553.9
原始数据经标准化处理后,得到变量的相关系数矩阵如表10.8所示。
表10.8 相关系数矩阵
小春播种面积小麦播种面积小麦良种比例化肥用量肥猪出栏农业人口耕牛数抽扬期气温抽扬期水量
小春播种面积1.000.777.450.441.081.228-.069.021-.178
小麦播种面积.7771.000.877.838.561.716.496-.193-.212
小麦良种比例.450.8771.000.905.741.804.654-.352-.186
化肥用量.441.838.9051.000.873.876.680-.263-.261
肥猪出栏.081.561.741.8731.000.857.802-.299-.129
农业人口.228.716.804.876.8571.000.869-.249-.148
耕牛数-.069.496.654.680.802.8691.000-.189-.119
抽扬期气温.021-.193-.352-.263-.299-.249-.1891.000-.022
抽扬期水量-.178-.212-.186-.261-.129-.148-.119-.0221.000
计算相关系数矩阵的特征值和特征向量。由表10.9,按累计比例数0.94选取主因子,可选取4个主因子,即4个主因子所包含的信息量占总体信息量的94.26%。
表10.9 特征值及占总体的比例数表
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt140.gif
相应地得到因子载荷矩阵如表5.10所示。
表10.10 因子载荷矩阵
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt141.gif
因子模型为:
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt137.gif
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt138.gif
为了进一步简化结构,进行方差极大旋转。经过4次旋转,得到因子载荷矩阵的方差最大值为:
V=0.457350387
得到正交旋转矩阵如表10.11 所示。
表10.11 方差极大正交旋转结果表
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt142.gif
从表10.11看出,第一主因子主要由变量4、变量5、变量6、变量7所决定,这四
个变量所反映的信息量几乎占总体信息量的57%;第二主因子主要由变量1所决定;第三主因子主要由变量9所决定、第四主因子主要由变量8所决定。这样,将9个变量简化为四个彼此独立的因子,即将9个变量分为四大类,第一类的代表变量是耕牛数,该变量有最大的载荷值(0.9955),第二类的代表变量是小春播种面积,该变量的载荷值为0.9957;第三类的代表变量是小麦抽穗扬花期降水量,其载荷值为0.9904;第四类的代表变量是小麦抽穗扬花期气温,其载荷值为0.9860。
为了对样本分类和进一步解释,对前四个主因子计算其因子得分,得到因子得分表,如表10.12所示。
根据因子得分表,取F1和F2两个因子轴作图,得到因子得分图(图10-3)。
由因子得分图,将样本分为三个类,第一类主要是以F2为正值,它包含了13个样本;第二类以F1为正值,它包含了9个样本;第三类是以F1和F2都为负值,它包含了5个样本。
表10.12 因子得分表
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt143.gif
mhtml:file://\\192.168.41.240\2010数学建模资料汇总\光盘4\729-补充材料多元\多元讲义\5-因子分析\第十章 因子分析.mht!http://210.34.156.180:8488/Economy/Images2/chapt144.gif
图10-3 因子载荷平面图
这是在网上找的。呵呵,和大家分享啦!呵呵
留个脚印``````` 我回不抢呢 考虑再三 还是不抢了吧 ^_^ 顶顶更健康,越顶吃的越香。 很牛。。。。。。。。。。。。。 顶顶更健康,越顶吃的越香。 楼主的帖子实在是写得太好了。可是我立刻想到,这么好的帖子,倘若别人看不到,那么不是浪费楼主的心血吗?经过痛苦的思想斗争,我终于下定决心,牺牲小我,奉献大我。我要拿出这帖子奉献给世人赏阅,我要把这个帖子一直往上顶,往上顶!顶到所有人都看到为止! :P不错。。。。。 楼主那种裂纸欲出的大手笔,竟使我忍不住一次次的翻开楼主的帖子…… 强烈支持。楼主万岁