多元分析(multivariate analyses)是多变量的统计分析方法,是数理统计中应用广 泛的一个重要分支,其内容庞杂,视角独特,方法多样,深受工程技术人员的青睐和广 泛使用,并在使用中不断完善和创新。由于变量的相关性,不能简单地把每个变量的结 果进行汇总,这是多变量统计分析的基本出发点。 3 e& @3 T) f0 _7 L: A# t& x & I" `* w' q# P9 C8 v聚类分析概述! q9 B" ]% x' Z. m, d+ e- _
将认识对象进行分类是人类认识世界的一种重要方法,比如有关世界的时间进程 的研究,就形成了历史学,也有关世界空间地域的研究,则形成了地理学。又如在生物 学中,为了研究生物的演变,需要对生物进行分类,生物学家根据各种生物的特征,将 它们归属于不同的界、门、纲、目、科、属、种之中。事实上,分门别类地对事物进行 研究,要远比在一个混杂多变的集合中更清晰、明了和细致,这是因为同一类事物会具 有更多的近似特性。在企业的经营管理中,为了确定其目标市场,首先要进行市场细分。 因为无论一个企业多么庞大和成功,它也无法满足整个市场的各种需求。而市场细分, 可以帮助企业找到适合自己特色,并使企业具有竞争力的分市场,将其作为自己的重点 开发目标。 ( d- u. p. M7 p* d8 R" J- f4 Z+ w/ K! r! c3 q$ q1 }) [* d
通常,人们可以凭经验和专业知识来实现分类。而聚类分析(cluster analyses)作 为一种定量方法,将从数据分析的角度,给出一个更准确、细致的分类工具。 [4 I% q- ~$ g / \" `% h9 O3 @4 R5 A1 相似性度量 $ v! w8 \" b2 Z! x& b1.1 样本的相似性度量/ r, m* C/ u z! h5 s
要用数量化的方法对事物进行分类,就必须用数量化的方法描述事物之间的相似 程度。一个事物常常需要用多个变量来刻画。如果对于一群有待分类的样本点需用 p 个变量描述,则每个样本点可以看成是 空间中的一个点。因此,很自然地想到可以用 距离来度量样本点间的相似程度。 - U" a: l* P; r1 d) V q) a+ S8 K. F( t& _ 8 x( v6 k8 f* ~3 U& X9 }& l
' q" Y3 [. r& q' D这一距离的定义是我们所熟知的,它满足正定性,对称性和三角不等式。在聚类 分析中,对于定量变量,常用的是 Minkowski 距离; Y# B7 D& |9 a
0 Y# l' k7 p! ]
闵氏距离、绝对值距离、欧氏距离、切比雪夫距离 - d( q X; ?' M$ z8 u. `) H# t/ {% _: a, m$ A( C! ? $ \% C: v- [+ s0 R+ ^$ [ . e& P6 {' U7 `) B! L( n! {/ P5 k' Z+ s' e: O) R
在 Minkowski 距离中,常用的是欧氏距离,它的主要优点是当坐标轴进行正交 旋转时,欧氏距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换 后样本点间的距离和变换前完全相同。 值得注意的是在采用 Minkowski 距离时,一定要采用相同量纲的变量。如果变量 的量纲不同,测量值变异范围相差悬殊时,建议首先进行数据的标准化处理,然后再计 算距离。在采用 Minkowski 距离时,还应尽可能地避免变量的多重相关性 (multicollinearity)。多重相关性所造成的信息重叠,会片面强调某些变量的重要性。 由于 Minkowski 距离的这些缺点,一种改进的距离就是马氏距离,定义如下 2 j4 e3 Y9 {2 q4 a e + Q8 O9 v* k# F9 L c X马氏距离 3 G* @0 ^5 N* P; t 2 }5 T) k# k7 _; Z& Q' o* f; ~( z L% s9 X; O1 Z w4 j% R
% i* _7 z3 j5 W, N4 D- k* M " \1 r1 }0 t& J/ P1 k其中x, y 为来自 p 维总体Z 的样本观测值,Σ为Z 的协方差矩阵,实际中Σ往往是不知道的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的,故不受量纲的影响。 此外,还可采用样本相关系数、夹角余弦和其它关联性度量作为相似性度量。近年 来随着数据挖掘研究的深入,这方面的新方法层出不穷。* m0 p. A+ a' Q
( b' y9 m3 X- A% R% C8 r8 r3 d/ B 1.2 类与类间的相似性度量 2 m; J7 ^& @( i, g H% p
如果有两个样本类 1 G 和 2 G ,我们可以用下面的一系列方法度量它们间的距离: * x1 I6 p: K; B . E* }8 o8 {5 P8 d$ f 1)最短距离法(nearest neighbor or single linkage method) : m b0 ~ ^6 b+ S% ?
" a& }( e8 q9 [8 T4 S0 D4 T/ v & F# g" \! ]% B. f$ O+ k% a1 d/ Z' z; z" u
它的直观意义为两个类中最近两点间的距离。* @4 l2 {# K! t. P) S( D
) H" n. ^, x, ~7 ~4 M! o
2)最长距离法(farthest neighbor or complete linkage method) / j3 a! E. M2 j. r
3 @" u, R) \- Q$ v2 c( { S ; q7 a4 y1 z$ d$ n: m: l1 Z$ D9 T9 u4 j. _, d
它的直观意义为两个类中最远两点间的距离。 ( A8 Z0 }; B3 H2 T7 X' r* M3 E& P" z% P7 g
3)重心法(centroid method) * s+ R2 h( G, C: j; u 3 b& j8 c k! I" W) u; v F7 } 4 s: S* M# `1 K! ]9 a4 s: Z I6 Y6 j! u/ x! A6 V4 B% m; d+ h. A
4)类平均法(group average method) : s9 Z& ~# N- ~2 ^ 7 g: x/ c4 N$ j$ `8 Z) a# J; h% V
) O- `0 I [: Z8 C8 N* X
5)离差平方和法(sum of squares method)、Ward 方法 # j; c' s& p! @& x3 z# E" |" s % ^% W& H& n% g4 O* K- S' f5 K# ^7 n8 V( c9 W1 X, R) z
X( t a; N& k, M事实上,若 内部点与点距离很小,则它们能很好地各自聚为一类,并且这两类又能够充分分离(即 很大),这时必然有 很大。因此,按定义可以认为,两类 之间的距离很大。离差平方和法初是由 Ward 在 1936 年提出,后经 Orloci 等人 1976 年发展起来的,故又称为 Ward 方法。4 v3 q9 ]' `8 ]# {& F
# b6 g0 ?0 ]" v9 Y
2 系统聚类法 9 q, f. J& q8 G+ N S4 B2.1 系统聚类法的功能与特点; B- r/ C. H7 F5 D+ A+ E, m1 L
9 G7 P' D' ~/ ]1 N' ^
系统聚类法是聚类分析方法中常用的一种方法。它的优点在于可以指出由粗到细 的多种分类情况,典型的系统聚类结果可由一个聚类图展示出来。 ! Q1 P* |( a/ a! R# K/ W: j+ R
2 K$ g. X! i7 a" p5 m2 k * d' x! R, j9 @$ ]2 l( M$ J: b: {% o }# a# W0 e" w) K0 s$ a' u
\ T- C% D2 b( a! A6 f) Q
F* u `/ O9 n生成聚类图 6 a% G r# P/ v- p# S % {2 @: t0 |, s/ r$ U6 n! g9 P1 ]" _& \+ g
; {% L1 G! Q! j4 n& ? [
, E' A% L. o5 G3 E! {显而易见,这种系统归类过程与计算类和类之间的距离有关,采用不同的距离定 义,有可能得出不同的聚类结果。1 ^' g6 t% ~1 T9 |1 B$ a0 ^
1 H5 w7 ?! f# J0 y5 g( v9 j9 k2.2 最短距离法与最长距离法 ) b- P( `3 N4 A7 G
如果使用短距离法来测量类与类之间的距离,即称其为系统聚类法中的最短距离 法(又称近邻法),先由 Florek 等人 1951 年和 Sneath1957 年引入。下面举例说明最 短距离法的计算步骤。 6 f" b* k, W1 k. p" D8 f4 R9 M+ s( B; c9 C0 X# i2 J( } ) x& y [) v g- H% `$ w3 ^5 o 8 l: A7 T' }+ D9 R+ \& f3 G1 Q {+ H8 A& q2 Y2 G4 t7 l4 G4 s
/ |* G) j9 t% O" Y 6 f' t5 u, }2 Z" C& G U* o
* F' [* Y& d3 _! d- ]' h " H' U+ z% R/ @' `6 `