0 o" q. D' F5 o $ {% L5 ^% n; Z9 R% `: Q+ w 7 p" F/ n4 j, b* }' p1 z5 V. @4 ]; D( h
1 基本思想及方法% b4 P g# t8 o# |# H: {; H 3 ] O* ?3 `0 b9 [' {! w) O
% P" W% _$ g8 S' V, S % D' }( e! O1 D2 o2 e- O q( Y1 确定各个主成分的方法 ! J4 S1 h+ k9 e一个主成分不足以代表原来的 p 个变量,因此需要寻找第二个乃至第三、第四主 成分,第二个主成分不应该再包含第一个主成分的信息,统计上的描述就是让这两个主 成分的协方差为零,几何上就是这两个主成分的方向正交。具体确定各个主成分的方法 如下。 " H. P u$ z/ l, B+ F. W
" m: o( a$ N2 V7 f/ ] d( O4 V8 u, L; ]0 F6 s; G+ j2 f0 t
8 ?9 U7 o! H& A- e7 s! Y
2 注意事项% f8 ]( J; p+ u q
1)主成分分析的结果受量纲的影响,由于各变量的单位可能不一样,如果各自改变量纲,结果会不一样,这是主成分分析的大问题,回归分析是不存在这种情况的, 所以实际中可以先把各变量的数据标准化,然后使用协方差矩阵或相关系数矩阵进行分 析。8 c. K# ~9 H/ _6 k* ]; P
0 H, B1 _& k% x
2)为使方差达到大的主成分分析,所以不用转轴(由于统计软件常把主成分分 析和因子分析放在一起,后者往往需要转轴,使用时应注意)。% }3 t: R: Y; x5 ^* p
4 m1 Z6 O" V0 {0 o
3)主成分的保留。用相关系数矩阵求主成分时,Kaiser主张将特征值小于1的主成 分予以放弃(这也是SPSS软件的默认值)。 0 K$ C. J/ s7 A k; A! Z' x, v+ y: n3 u0 s2 Z8 z
4)在实际研究中,由于主成分的目的是为了降维,减少变量的个数,故一般选取 少量的主成分(不超过5或6个),只要它们能解释变异的70%~80%(称累积贡献率) 就行了。 下面我们直接通过主成分估计(principle estimate)进一步阐述主成分分析的基 本思想和相关概念。 ) _% P/ ~5 {, C; i/ X 1 M* k ^' |# s8 m% m) p' m2 u2 主成分估计 ' R8 j0 I/ K8 J2 W* L# y* ?
主成分估计(principal component estimate)是Massy在1965年提出的,它是回归系数参数的一种线性有偏估计(biased estimate),同其它有偏估计,如岭估计(ridge estimate)等一样,是为了克服小二乘(LS)估计在设计矩阵病态(即存在多重共线性) 时表现出的不稳定性而提出的。 1 [7 H+ a" O, N4 B$ _4 ~
+ k- L/ d( V; D/ ]% B1 ?7 C主成分估计采用的方法是将原来的回归自变量变换到另另一组变量,即主成分,选择其中一部分重要的主成分作为新的自变量(此时丢弃了一部分,影响不大的自变量, 这实际达到了降维的目的),然后用小二乘法对选取主成分后的模型参数进行估计, 后再变换回原来的模型求出参数的估计。 7 f$ Z( a) ?2 r0 U: R$ {% m4 Z" @6 V 3 x5 N, b& s, r" J& f9 ^3 I: y' [# J4 T
% G2 @+ w& ^) l& |2 m- r * A& V! P6 y9 s单参数主成分估计 + M' ^2 |1 \" u3 h. \. {& ~ E) Y理论上表明:主成分估计在设计阵病态时优于LS估计,但(31)在特征值为1的附 近存在跳跃,会影响计算的稳定性,杨虎在1989年给出的单参数主成分估计解决了这个 问题。 - E+ \* t% J2 }$ r8 Q+ s - ?; A8 h$ m# p7 q# [3 Y; @- T3 u' A; P5 T
例3 Hald水泥问题,考察含如下四种化学成分 / U4 a5 \7 V0 \4 N d* k 4 n# G! I. O' z1 ^ Q 9 F1 u. h0 n1 I+ k# ` 8 H% l4 T3 }8 C1 ^" o, M+ _ / R" d/ a' g7 H* ^* z5 t5 p相关系数阵的四个特征值依次为2.2357,1.5761,0.1866,0.0016。最后一个特征值接近于零,前三个特征值之和所占比例(累积贡献率)达到0.999594。于是我们略去 第4个主成分。其它三个保留的特征值对应的三个特征向量分别为 % [" [" I! E- L9 A" T- K 1 C' |- s" W+ ]9 T, W) i6 d, _% X% V9 w8 Y) q* i d
' E7 w' L$ ~2 N" ?' _对Hald数据直接作线性回归得经验回归方程 ( `- e- v5 F! P
& O( [0 Z! u% p, Q: G- v " K9 L2 c& g$ C5 r9 e# `, n 9 V9 J& N/ `1 \2 m再由(31)式计算出主成分估计,即可获得如下主成分回归方程 * c4 H) ]8 C4 d# d G; f3 `6 v9 s - D8 ^6 ]3 B/ C. K4 U+ ~) h9 d! k; u- U2 C/ _5 s7 _6 b& F) M