主成分分析的背景 主成分分析是利用降维的思想,把多指标转化为少数几个不相关的综合指标的一种多元统计分析方法。由于在选矿各因素之间存在一定的相关关系,因此可利用主成分分析法进行处理,即用较少的综合指标分别综合存在于选矿各因素中的各类信息,而综合指标之间彼此不相关,即各指标代表的信息不重叠。 共有nXp个数据,如何从这些数据中抓住主要规律,从而分析样本或总体的主要性质呢?如果p个指标是相互独立的,则可以把问题化为P个单指标来处理,这是简单而罕见的情况。一般p个指标即p个随机变量x,,…,`和之间存在相关关系,使数据分析复杂化。另一方面,往往存在这样的情况,p个变量(或指标)的大部分变差能够由它们的k(比p小得多)个所谓“综合指标”(特殊的线性组合!)来概括。如果所考虑的问题是这种情况,那么含在这k“综合指标”中的信息与原来p个变量几乎一样多,可以用这k个“综合指标”代替原p个变量。这样一来,由p个变量的n次观测组成的数据就被化简为k个,’综合指标”的n次观测数据。 因此,自然要问:能否从这p个指标中构造出很少几个互不相关的所谓“综合指标”,而且这几个综合指标应尽可能充分地反映原来p个指标的信息?回答是肯定的,这就是主成分分析的内容。或者说,主成分分析是一种把原来多个指标化为少数几个互不相关(或相互独立)的综合指标的一种统计方法,可以达到数据化简、揭示变量之间的关系和进行统计解释的目的,为进一步分析总体的性质和数据的统计特性提供一些重要信息。 主成分的几何意义 为了方便,在二维空间中讨论主成分的几何意义。设有n个样品,每个样品中有两个观测量x,和x2,在由变量x,和x2所确定的二维平面中,n个样本点所散布的情况如带状。可以看出这n个样本点无论是延着x,轴方向或x2轴方向都具有较大的离散性,其离散程度可以分别用观测量的方差和定量的表示。显然,如果只考虑x,和x2中的任何一个,`则包含在原始数据中信息将会有较大的损失。 旋转的目的是为了使n个样品点在iy轴方向上的离散程度最大,’即y,的方差最大,变量代表了原始数据的大部分信息,因此,在研究问题时即使不考虑y2也无损大局。这样经过旋转变换就可把原始数据中的信息集中到y,轴上,对数据包含的信息起到了浓缩的作用。y,和力除了可以对包含在xI和xZ中的信息起到浓缩作用之外,同时还具有不相关的性质,这使得在研究复杂问题时避免了信息重叠所带来的虚假性。二维平面上的,个点的方差大部分都归结在少,轴上,而力轴上的方差很小。y,和y2称为原始变量x,和x2的综合变量。由于变量在y,轴上的方差最大,因而将二维空间的点的描述用yI这个综合变量来描述,信息的损失最小。由此称y,为第一主成分,力为第二主成分。在研究问题中,只需考虑yl方向的信息,忽略力上的信息,且损失的信息不多。这样,二维空间变为一维空间,y,是x,和x2的线性组合,简化了系统结构,抓住了主要矛盾。`
, l, X9 Y8 I6 b; \7 ^9 S" y2 r- ~( j, @5 e2 D3 J# [
|