首先介绍一下主成分分析法:
4 Y, A8 C$ X ~$ d 主成分分析是一种通过降维技术把多个指标约化为少数几个综合指标的综合统计分析方法,而这些综合指标能够反映原始指标的绝大部分信息,它们通常表现为原始几个指标的线性组合。; t. @( m/ u0 Y/ o- y' ~1 e5 z
简单说就是 “你要将后宫佳丽三千来分个漂亮等级来赏赐,由于都很好看所以不知道怎么分,这时你练成了主成分分析大法,一下选出了20个不同等级的佳丽,其他2980个佳丽和这20个比就可以分开了。从此你后宫无忧”5 `6 q4 [5 `& W! S
[size=42.6667px] 它的基本思想是:具有一定相关性的众多指标重新组合成新的无相互关系的综合指标来代替。通常数学上的处理就是将这P个指标进行线性组合作为新的综合指标。问题是:这样的线性组合会很多,如何选择?
) a& N1 b$ K9 N0 {; C; D& p& f x
. x" ?1 G- |6 B 如果选取的第一个线性组合即第一个综合指标为 F1, 希望它尽可能多的反映原来指标的信息,即方差(var(F1))越大,所包含的原来指标信息就越多,F1的方差应该是最大的,把它称作“第一主成分”,方差其次就是第二主成分...
1 o; c& H5 [4 k2 ^8 p* ^ $ H( k0 w" J+ B" ]
但是我们不可能一直选到第100主成分,那样就是浪费劳动力,社会主义精神不允许我们这么做!
3 t, i$ H* n; m2 w! d* g7 c( o 因此,我们选到第几主成分就可以不选了?或者说,我们选几个主成分就可以代表原来那3000佳丽,难道一定得是20个?
3 [* F" ?& i7 q85%准则:, l4 t2 ?; D9 Q" V. {
先准备一个概念:累计贡献率
2 P5 g/ Y0 r |4 L 累积贡献率:前k个主成分共有多大的综合能力,用这k个主成分的方差和在全部方差中所占比重来描述,称为累积贡献率
" I1 V v+ \) ^$ D; \* d/ T' s8 M, B* U: v3 V
我们进行主成分分析的目的之一是希望用尽可能少的主成分F1,F2,…,Fk(k≤p)代替原来的P个指标。到底应该选择多少个主成分,在实际工作中,主成分个数的多少取决于能够反映原来变量85%以上的信息量为依据,即当累积贡献率≥85%时的主成分的个数就足够了。最常见的情况是主成分为2到3个。+ e9 e0 r* f* i6 K5 l
- F: G& B$ i' @9 Z
但是
% C) [9 r+ g/ I, Q 你实际情况下面对的一群变量不会是一群乖孩子等着你去分类,它们可能会很狂躁,比如变量的单位不一致,变化方向不一致,这样就导致了各个变量分散程度加大,总体的方差就会受到方差较大的变量的控制。
/ a( j7 q. L6 H1 p% `) m- n 因此嘞,我们要做一件事:标准化处理变量,学秦始皇一统天下
8 l f7 f1 ?. ]9 | 嘞原来变量我们记为X我们要做的就是将X标准化为X*:& L% g. t9 }0 k. D4 D' G& l8 D
5 T$ q' N( ~. s7 g
c- C8 Y* Z$ I' T8 ^1 ]! ~' Q( ^- G: C( K' r
: X1 u5 [. Q8 Z" I/ t; q* |7 f
9 }) F& Q l* z) x5 i- }' U+ u5 v6 c. s% a) h. o1 Z( d8 l0 o6 Z
5 z- C( ^# y; v. H) _之后就可以进行我们的主成分分析操作了:$ L0 n. r7 c* V) p' k3 ^) {
STEP01:计算X*的相关系数矩阵R; STEP03:求相关系数矩阵R的特征根 λ1≥λ2 ≥‥‥≥ λp ≥0及相应的单位正交特征向量U1,U2,‥‥, Up; STEP04:计算方差累积贡献率,确定主成分的个数q; STEP05:写出主成分F=X*U,解释其实际经济意义并指导实践。 $ r% n0 T; T- z; t
在下一期我将会用实际例题来加深大家对主成分分析法的掌握,这期主要是让大家对这个有一个原理上的认识。
y# k( c/ F8 M
' A, _2 T" M2 a9 m; s: G9 p2 H
% P) x6 V/ d; V6 e$ ~下载附件了解主成分分析的详细内容!!!!快下载,别磨蹭
. E0 y E- i' o ]. E2 }+ E, v# r$ ~) O J( K" g. b! U, r) h
|