聚类分析
§1 聚类分析将认识对象进行分类是人类认识世界的一种重要方法,比如有关世界的时间进程
的研究,就形成了历史学,也有关世界空间地域的研究,则形成了地理学。又如在生物
学中,为了研究生物的演变,需要对生物进行分类,生物学家根据各种生物的特征,将
它们归属于不同的界、门、纲、目、科、属、种之中。事实上,分门别类地对事物进行
研究,要远比在一个混杂多变的集合中更清晰、明了和细致,这是因为同一类事物会具
有更多的近似特性。在企业的经营管理中,为了确定其目标市场,首先要进行市场细分。
因为无论一个企业多么庞大和成功,它也无法满足整个市场的各种需求。而市场细分,
可以帮助企业找到适合自己特色,并使企业具有竞争力的分市场,将其作为自己的重点
开发目标。
通常,人们可以凭经验和专业知识来实现分类。而聚类分析(cluster analyses)作
为一种定量方法,将从数据分析的角度,给出一个更准确、细致的分类工具。
1.1 相似性度量
1.1.1 样本的相似性度量
要用数量化的方法对事物进行分类,就必须用数量化的方法描述事物之间的相似
程度。一个事物常常需要用多个变量来刻画。如果对于一群有待分类的样本点需用p 个
变量描述,则每个样本点可以看成是Rp空间中的一个点。因此,很自然地想到可以用
距离来度量样本点间的相似程度。
记Ω是样本点集,距离d(⋅,⋅)是Ω×Ω→ R+的一个函数,满足条件:
1)d(x, y) ≥ 0,x, y∈Ω;
2)d(x, y) = 0当且仅当x = y;
3)d(x, y) = d( y, x),x, y∈Ω;
4)d(x, y) ≤ d(x, z) + d(x, y),x, y, z∈Ω。
这一距离的定义是我们所熟知的,它满足正定性,对称性和三角不等式。在聚类
分析中,对于定量变量,最常用的是Minkowski 距离
-444-
p q
k
q
q k k d x y x y
1
1
) , ( ⎥⎦
⎤
⎢⎣
⎡
− = Σ=
,q > 0
当q = 1,2或q →+∞时,则分别得到
1)绝对值距离
Σ=
= −
q
k
k k d x y x y
1
1 ( , ) , (1)
2)欧氏距离
2
1
1
2
2 ) , ( ⎥⎦
⎤
⎢⎣
⎡
− = Σ=
p
k
k k d x y x y , (2)
3)Chebyshev 距离
k p k k
d x y = x − y
∞ ≤ ≤ 1
( , ) max 。 (3)
在 Minkowski 距离中,最常用的是欧氏距离,它的主要优点是当坐标轴进行正交
旋转时,欧氏距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换
后样本点间的距离和变换前完全相同。
值得注意的是在采用 Minkowski 距离时,一定要采用相同量纲的变量。如果变量
的量纲不同,测量值变异范围相差悬殊时,建议首先进行数据的标准化处理,然后再计
算距离。在采用Minkowski 距离时, 还应尽可能地避免变量的多重相关性
(multicollinearity)。多重相关性所造成的信息重叠,会片面强调某些变量的重要性。
由于Minkowski 距离的这些缺点,一种改进的距离就是马氏距离,定义如下
4)马氏(Mahalanobis)距离
d(x, y) = (x − y)T Σ−1(x − y) (4)
其中x, y为来自p 维总体Z 的样本观测值,Σ为Z 的协方差矩阵,实际中Σ往往是不
知道的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的,故不受量
纲的影响。
此外,还可采用样本相关系数、夹角余弦和其它关联性度量作为相似性度量。近年
来随着数据挖掘研究的深入,这方面的新方法层出不穷。
1.1.2 类与类间的相似性度量
如果有两个样本类 1 G 和2 G ,我们可以用下面的一系列方法度量它们间的距离:
1)最短距离法(nearest neighbor or single linkage method)
-445-
( , ) min{ ( , )}
2
1
1 2 i j
y G
x G
D G G d x y
j
i
∈
∈
= , (5)
它的直观意义为两个类中最近两点间的距离。
2)最长距离法(farthest neighbor or complete linkage method)
( , ) max{ ( , )}
2
1
1 2 i j
y G
x G
D G G d x y
j
i
∈
∈
= , (6)
它的直观意义为两个类中最远两点间的距离。
3)重心法(centroid method)
( , ) ( , ) 1 2 D G G = d x y , (7)
其中x, y 分别为1 2 G ,G 的重心。
4)类平均法(group average method)
Σ Σ
∈ ∈
=
1 2
( , ) 1 ( , )
1 2
1 2
x G x G
i j
i j
d x x
n n
D G G , (8)
它等于 1 2 G ,G 中两两样本点距离的平均,式中1 2 n , n 分别为1 2 G ,G 中的样本点个数。
5)离差平方和法(sum of squares method)
若记
Σ∈
= − −
1
( ) ( ) 1 1 1
x G
i
T
i
i
x x x x D , Σ∈
= − −
2
( ) ( ) 2 2 2
x G
j
T
j
j
D x x x x ,
Σ
∈
= − −
1 2
( ) ( ) 12
x G G
k
T
k
k
D x x x x
∪
,
其中
Σ∈
=
1 1
1
1
x G
i
i
x
n
x , Σ∈
=
2 2
2
1
x G
j
j
x
n
x , Σ
+ ∈
=
1 2 1 2
1
x G G
k
k
x
n n
x
∪
则定义
1 2 12 1 2 D(G ,G ) = D − D − D (9)
事实上,若1 2 G ,G 内部点与点距离很小,则它们能很好地各自聚为一类,并且这两类
又能够充分分离(即12 D 很大),这时必然有12 1 2 D = D − D − D 很大。因此,按定义可
以认为,两类1 2 G ,G 之间的距离很大。离差平方和法最初是由Ward 在1936 年提出,
-446-
后经 Orloci 等人1976 年发展起来的,故又称为Ward 方法。
1.2 系统聚类法
1.2.1 系统聚类法的功能与特点
系统聚类法是聚类分析方法中最常用的一种方法。它的优点在于可以指出由粗到细
的多种分类情况,典型的系统聚类结果可由一个聚类图展示出来。
例如,在平面上有7 个点1 2 7 w ,w ,􀀢,w (如图1(a)),可以用聚类图(如图1(b))
来表示聚类结果。
图1 聚类方法示意图
记 { , , , } 1 2 7 Ω = w w 􀀢 w ,聚类结果如下:当距离值为5 f 时,分为一类
{ , , , , , , } 1 1 2 3 4 5 6 7 G = w w w w w w w ;
距离值为 4 f 分为两类:
{ , , } 1 1 2 3 G = w w w , { , , , } 2 4 5 6 7 G = w w w w ;
距离值为 3 f 分为三类:
{ , , } 1 1 2 3 G = w w w , { , , } 2 4 5 6 G = w w w , { } 3 7 G = w ;
距离值为 2 f 分为四类:
{ , , } 1 1 2 3 G = w w w , { , } 2 4 5 G = w w , { } 3 6 G = w , { } 4 7 G = w
距离值为 1 f 分为六类:
{ , } 1 4 5 G = w w , { } 2 1 G = w , { } 3 2 G = w , { } 4 3 G = w , { } 5 6 G = w , { } 6 7 G = w
距离小于 1 f 分为七类,每一个点自成一类。
-447-
怎样才能生成这样的聚类图呢?步骤如下:设 { , , , } 1 2 7 Ω = w w 􀀢 w ,
1)计算n个样本点两两之间的距离{ } ij d ,记为矩阵ij n n D d × = ( ) ;
2)首先构造n 个类,每一个类中只包含一个样本点,每一类的平台高度均为零;
3)合并距离最近的两类为新类,并且以这两类间的距离值作为聚类图中的平台高
度;
4)计算新类与当前各类的距离,若类的个数已经等于1,转入步骤5),否则,回
到步骤3);
5)画聚类图;
6)决定类的个数和类。
显而易见,这种系统归类过程与计算类和类之间的距离有关,采用不同的距离定
义,有可能得出不同的聚类结果。
1.2.2 最短距离法与最长距离法
如果使用最短距离法来测量类与类之间的距离,即称其为系统聚类法中的最短距离
法(又称最近邻法),最先由Florek 等人1951 年和Sneath1957 年引入。下面举例说明
最短距离法的计算步骤。
例1 设有5个销售员1 2 3 4 5 w ,w ,w ,w ,w ,他们的销售业绩由二维变量( , ) 1 2 v v 描述,
见表1。
表1 销售员业绩表
销售员
1 v (销售量)百件2 v (回收款项)万元
1 w 1 0
2 w 1 1
3 w 3 2
4 w 4 3
5 w 2 5
记销售员w (i =1,2,3,4,5) i 的销售业绩为( , ) i1 i2 v v 。如果使用绝对值距离来测量点
与点之间的距离,使用最短距离法来测量类与类之间的距离,即
Σ=
= −
2
1
( , )
k
i j ik jk d w w v v , ( , ) min{ ( , )} i j
w G
p q w G D G G d w w
j q
i p
∈
∈
=
-448-
由距离公式d(⋅,⋅),可以算出距离矩阵。
⎥ ⎥ ⎥ ⎥ ⎥ ⎥
⎦
⎤
⎢ ⎢ ⎢ ⎢ ⎢ ⎢
⎣
⎡
4
0 4
0 2 4
0 3 5 5
0 1 4 6 6
5
4
3
2
1
1 2 3 4 5
w
w
w
w
w
w w w w w
第一步,所有的元素自成一类{ , , , , } 1 1 2 3 4 5 H = w w w w w 。每一个类的平台高度为
零,即f (w ) = 0(i = 1,2,3,4,5) i 。显然,这时( , ) ( , ) p q p q D G G = d w w 。
第二步,取新类的平台高度为 1,把1 2 w ,w 合成一个新类6 h ,此时的分类情况是
{ , , , } 2 6 3 4 5 H = h w w w
第三步,取新类的平台高度为 2,把3 4 w ,w 合成一个新类7 h ,此时的分类情况是
{ , , } 3 6 7 5 H = h h w
第四步,取新类的平台高度为 3,把6 7 h , h 合成一个新类8 h ,此时的分类情况是
{ , } 4 8 5 H = h w
第五步,取新类的平台高度为4,把8 h 和5 w 合成一个新类9 h ,此时的分类情况是
{ } 5 9 H = h
图2 最短距离法
这样, 9 h 已把所有的样本点聚为一类,因此,可以转到画聚类图步骤。画出聚类
-449-
图(如图2(a))。这是一颗二叉树,如图2(b)。
有了聚类图,就可以按要求进行分类。可以看出,在这五个推销员中5 w 的工作成
绩最佳, 3 4 w ,w 的工作成绩最好,而1 2 w ,w 的工作成绩较差。
完全类似于以上步骤,但以最长距离法来计算类间距离,就称为系统聚类法中的
最长距离法。
计算的 MATLAB 程序如下:
clc,clear
a=;
=size(a);
d=zeros(m,m);
for i=1:m
for j=i+1:m
d(i,j)=mandist(a(i,:),a(j,:)');
end
end
d
nd=nonzeros(d);
nd=union(nd,nd)
for i=1:m-1
nd_min=min(nd);
=find(d==nd_min);tm=union(row,col);
tm=reshape(tm,1,length(tm));
s(i)={char(['第',int2str(i),'次合成,平台高度为',num2str(nd_min),'
时的分类结果为:',int2str(tm)])};
%上面大括号{}代表建立数组
nd(find(nd==nd_min))=[];
if length(nd)==0
break
end
end
s(:)
或者使用MATLAB统计工具箱的相关命令,编写如下程序:
clc,clear
a=;
y=pdist(a,'cityblock');yc=squareform(y)
z=linkage(y)
=dendrogram(z)
-450-
MATLAB中相关命令的使用说明如下:
1)pdist
Y=pdist(X)计算m× n矩阵X(被看作m个大小为n的向量)中两两对象间的欧氏
距离。对于有m个对象组成的数据集,共有(m −1) ⋅m/ 2个两两对象组合。
输出Y是包含距离信息的长度为(m −1) ⋅m/ 2的向量。可用squareform函数将此向
量转换为方阵,这样可使矩阵中的元素(i,j)对应原始数据集中对象i和j间的距离。
Y=pdist(X,’metric’)中用’metric’指定的方法计算矩阵X中对象间的距
离。’metric’可取表2中特征字符串值。
表2 ’metric’取值及含义
字符串 含 义
’Euclid’ 欧氏距离(缺省)
’SEuclid’ 标准欧氏距离
’Mahal’ 马氏距离(Mahalanobis距离)
’CityBlock’ 绝对值距离
’Minkowski’ 闵氏距离(Minkowski距离)
Y=pdist(X,’minkowski’,p)用闵氏距离计算矩阵X中对象间的距离。P为闵氏距离
计算用到的指数值,缺省为2。
2)linkage
Z=linkage(Y)使用最短距离算法生成具层次结构的聚类树。输入矩阵Y为pdist函数
输出的(m −1) ⋅m/ 2维距离行向量。
Z=linkage(Y,’method’)使用由’method’指定的算法计算生成聚类
树。’method’可取表3中特征字符串值。
表3 ’method’取值及含义
字符串 含 义
’single’ 最短距离(缺省)
’complete’ 最大距离
’average’ 平均距离
’centroid’ 重心距离
’ward’ 离差平方和方法(Ward方法)
输出Z为包含聚类树信息的(m −1)×3矩阵。聚类树上的叶节点为原始数据集中的
对象,由1到m 。它们是单元素的类,级别更高的类都由它们生成。对应于Z中行j 每
个新生成的类,其索引为m + j,其中m为初始叶节点的数量。
-451-
第1列和第2列,即Z(i,1:2)包含了被两两连接生成一个新类的所有对象的索引。生
成的新类索引为m + j。共有m −1个级别更高的类,它们对应于聚类树中的内部节点。
第三列,Z(i,3)包含了相应的在类中的两两对象间的连接距离。
3)cluster
T=cluster(Z,cutoff)从连接输出(linkage)中创建聚类。cutoff为定义cluster
函数如何生成聚类的阈值,其不同的值含义如表4所示。
表4 cutoff取值及含义
cutoff取值 含 义
0<cutoff<2
cutoff作为不一致系数的阈值。不一致系数对聚类树中对象间的差
异进行了量化。如果一个连接的不一致系数大于阈值,则cluster
函数将其作为聚类分组的边界。
2<=cutoff cutoff作为包含在聚类树中的最大分类数
T=cluster(Z,cutoff,depth,flag)从连接输出(linkage)中创建聚类。参数depth
指定了聚类数中的层数,进行不一致系数计算时要用到。不一致系数将聚类树中两对象
的连接与相邻的连接进行比较。详细说明见函数inconsistent。当参数depth被指定时,
cutoff通常作为不一致系数阈值。
参数flag重载参数cutoff的缺省含义。如flag为’inconsistent’,则cutoff作为
不一致系数的阈值。如flag为’cluster’,则cutoff作为分类的最大数目。
输出T为大小为m 的向量,它用数字对每个对象所属的类进行标识。为了找到包含
在类i中的来自原始数据集的对象,可用find(T==i)。
4)zsore(X)
对数据矩阵进行标准化处理,处理方式为
j
ij j
ij s
x x
x
−
~ =
其中矩阵ij m n X x × = ( ) 看作是m个大小为n的向量, j j x , s 是每一列的均值和标准差。
5)H=dendrogram(Z,P)
由linkage产生的数据矩阵Z画聚类树状图。P是结点数,默认值是30。
6)T=clusterdata(X,cutoff)
将矩阵X的数据分类。X为m× n矩阵,被看作m个大小为n的向量。它与以下几个
命令等价:
Y=pdist(X,’euclid’)
Z=linkage(Y,’single’)
T=cluster(Z,cutoff)
7)squareform
将pdist的输出转换为方阵。
-452-
8)cophenet
c=cophenet(Z,Y) 计算相干系数,它是将Z中的距离信息(由linkage()函数产生)
和Y中的距离信息(由pdist())函数产生进行比较。Z为(m −1)×3矩阵,距离信息包
含在第三列。Y是(m −1) ⋅m/ 2维的行向量。
例如,给定距离为Y的一组对象{1,2,􀀢,m},函数linkage()生成聚类树。cophenet()
函数用来度量这种分类的失真程度,即由分类所确定的结构与数据间的拟合程度。
输出值c为相干系数。对于要求很高的解,该值的幅度应非常接近1。它也可用来比
较两种由不同算法所生成的分类解。
Z(:,3)和Y之间的相干系数定义为
Σ Σ
Σ
< <
<
− −
− −
=
i j
ij
i j
ij
i j
ij ij
y y z z
y y z z
c
( )2 ( )2
( )( )
其中ij y 为Y中对象i 和j 间的距离; ij z 为Z(:,3)中对象i 和j 间的距离;y 和z 分别为Y
和Z(:,3)的平均距离。
1.3 变量聚类法
在实际工作中,变量聚类法的应用也是十分重要的。在系统分析或评估过程中,为
避免遗漏某些重要因素,往往在一开始选取指标时,尽可能多地考虑所有的相关因素。
而这样做的结果,则是变量过多,变量间的相关度高,给系统分析与建模带来很大的不
便。因此,人们常常希望能研究变量间的相似关系,按照变量的相似关系把它们聚合成
若干类,进而找出影响系统的主要因素。
1.3.1 变量相似性度量
在对变量进行聚类分析时,首先要确定变量的相似性度量,常用的变量相似性度量
有两种。
1)相关系数
记变量j x 的取值( , , , ) ( 1,2, , ) 1 2 x x x T Rn j m
j j 􀀢 nj ∈ = 􀀢 。则可以用两变量j x 与k x
的样本相关系数作为它们的相似性度量
2
1
1 1
2 2
1
( ) ( )
( )( )
⎥⎦
⎤
⎢⎣
⎡
− −
− −
=
Σ Σ
Σ
= =
=
n
i
n
i
ij j ik k
n
i
ij j ik k
jk
x x x x
x x x x
r , (10)
在对变量进行聚类分析时,利用相关系数矩阵是最多的。
-453-
2)夹角余弦
也可以直接利用两变量j x 与k x 的夹角余弦jk r 来定义它们的相似性度量,有
2
1
1
2
1
2
1
⎟⎠
⎞
⎜⎝
⎛
=
Σ Σ
Σ
= =
=
n
i
ik
n
i
ij
n
i
ij ik
jk
x x
x x
r (11)
各种定义的相似度量均应具有以下两个性质:
a) ≤1 jk r ,对于一切j, k ;
b) jk kj r = r ,对于一切j, k 。
jk r 越接近1, j x 与k x 越相关或越相似。jk r 越接近零, j x 与k x 的相似性越弱。
1.3.2 变量聚类法
类似于样本集合聚类分析中最常用的最短距离法、最长距离法等,变量聚类法采用
了与系统聚类法相同的思路和过程。在变量聚类问题中,常用的有最大系数法、最小系
数法等。
1)最大系数法
在最大系数法中,定义两类变量的距离为
( , ) max{ }
2
1
1 2 jk
x G
x G
R G G r
k
j
∈
∈
= , (12)
这时, ( , ) 1 2 R G G 等于两类中最相似的两变量间的相似性度量值。
2)最小系数法
在最小系数法中,定义两类变量的距离为
( , ) min{ }
2
1
1 2 jk
x G
x G
R G G r
k
j
∈
∈
= , (13)
这时, ( , ) 1 2 R G G 等于两类中相似性最小的两个变量间的相似性度量值。
例2 服装标准制定中的变量聚类法。
在服装标准制定中,对某地成年女子的各部位尺寸进行了统计,通过14个部位的测
量资料,获得各因素之间的相关系数表(见表2)。
表5 成年女子各部位相关系数
1 x 2 x 3 x
4 x 5 x 6 x 7 x 8 x 9 x 10 x 11 x 12 x 13 x
14 x
-454-
1 x 1
2 x 0.366 1
3 x 0.242 0.233 1
4 x 0.28 0.194 0.59 1
5 x 0.36 0.324 0.476 0.435 1
6 x 0.282 0.262 0.483 0.47 0.452 1
7 x 0.245 0.265 0.54 0.478 0.535 0.663 1
8 x 0.448 0.345 0.452 0.404 0.431 0.322 0.266 1
9 x 0.486 0.367 0.365 0.357 0.429 0.283 0.287 0.82 1
10 x 0.648 0.662 0.216 0.032 0.429 0.283 0.263 0.527 0.547 1
11 x 0.689 0.671 0.243 0.313 0.43 0.302 0.294 0.52 0.558 0.957 1
12 x 0.486 0.636 0.174 0.243 0.375 0.296 0.255 0.403 0.417 0.857 0.852 1
13 x 0.133 0.153 0.732 0.477 0.339 0.392 0.446 0.266 0.241 0.054 0.099 0.055 1
14 x 0.376 0.252 0.676 0.581 0.441 0.447 0.44 0.424 0.372 0.363 0.376 0.321 0.627 1
其中− 1 x 上体长, − 2 x 手臂长, − 3 x 胸围, − 4 x 颈围, − 5 x 总肩围, − 6 x 总胸宽, − 7 x
后背宽, − 8 x 前腰节高, − 9 x 后腰节高, − 10 x 总体长, − 11 x 身高, − 12 x 下体长, − 13 x
腰围, − 14 x 臀围。用最大系数法对这14个变量进行系统聚类,分类结果如图3。
10 11 12 2 1 8 9 3 13 14 4 5 6 7
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
图3 成年女子14个部位指标的聚类图
-455-
计算的MATLAB程序如下:
%把下三角相关系数矩阵粘贴到纯文本文件ch.txt中
a=textread('ch.txt');
for i=1:14
a(i,i)=0;
end
b=a(:);b=nonzeros(b);b=b';b=1-b;
z=linkage(b,'complete');
y=cluster(z,2)
dendrogram(z)
ind1=find(y==2);ind1=ind1'
ind2=find(y==1);ind2=ind2'
可以看出,人体的变量大体可以分为两类:一类反映人高、矮的变量,如上体长,
手臂长,前腰节高,后腰节高,总体长,身高,下体长;另一类是反映人体胖瘦的变量,
如胸围,颈围,总肩围,总胸宽,后背宽,腰围,臀围。
§2 聚类分析案例—我国各地区普通高等教育发展状况分析
聚类分析又称群分析,是对多个样本(或指标)进行定量分类的一种多元统计分析
方法。对样本进行分类称为Q型聚类分析,对指标进行分类称为R型聚类分析。本案例
运用Q型和R型聚类分析方法对我国各地区普通高等教育的发展状况进行分析。
1.案例研究背景
近年来,我国普通高等教育得到了迅速发展,为国家培养了大批人才。但由于我国
各地区经济发展水平不均衡,加之高等院校原有布局使各地区高等教育发展的起点不一
致,因而各地区普通高等教育的发展水平存在一定的差异, 不同的地区具有不同的特
点。对我国各地区普通高等教育的发展状况进行聚类分析,明确各类地区普通高等教育
发展状况的差异与特点,有利于管理和决策部门从宏观上把握我国普通高等教育的整体
发展现状,分类制定相关政策,更好的指导和规划我国高教事业的整体健康发展。
2.案例研究过程
(1)建立综合评价指标体系
高等教育是依赖高等院校进行的,高等教育的发展状况主要体现在高等院校的相
关方面。遵循可比性原则,从高等教育的五个方面选取十项评价指标,具体如图4。
(2)数据资料
指标的原始数据取自《中国统计年鉴,1995》和《中国教育统计年鉴,1995》除以
各地区相应的人口数得到十项指标值见表6。其中: 1 x 为每百万人口高等院校数; 2 x 为
每十万人口高等院校毕业生数; 3 x 为每十万人口高等院校招生数; 4 x 为每十万人口高
等院校在校生数; 5 x 为每十万人口高等院校教职工数; 6 x 为每十万人口高等院校专职
-456-
教师数; 7 x 为高级职称占专职教师的比例; 8 x 为平均每所高等院校的在校生数; 9 x 为
国家财政预算内普通高教经费占国内生产总值的比重; 10 x 为生均教育经费。
图4 高等教育的十项评价指标
表6 我国各地区普通高等教育发展状况数据
地区
1 x 2 x 3 x
4 x 5 x 6 x 7 x 8 x 9 x 10 x
北京 5.96 310 461 1557 931 319 44.36 2615 2.20 13631
上海 3.39 234 308 1035 498 161 35.02 3052 .90 12665
天津 2.35 157 229 713 295 109 38.40 3031 .86 9385
陕西 1.35 81 111 364 150 58 30.45 2699 1.22 7881
辽宁 1.50 88 128 421 144 58 34.30 2808 .54 7733
吉林 1.67 86 120 370 153 58 33.53 2215 .76 7480
黑龙江 1.17 63 93 296 117 44 35.22 2528 .58 8570
湖北 1.05 67 92 297 115 43 32.89 2835 .66 7262
江苏 .95 64 94 287 102 39 31.54 3008 .39 7786
广东 .69 39 71 205 61 24 34.50 2988 .37 11355
四川 .56 40 57 177 61 23 32.62 3149 .55 7693
山东 .57 58 64 181 57 22 32.95 3202 .28 6805
甘肃 .71 42 62 190 66 26 28.13 2657 .73 7282
湖南 .74 42 61 194 61 24 33.06 2618 .47 6477
浙江 .86 42 71 204 66 26 29.94 2363 .25 7704
新疆 1.29 47 73 265 114 46 25.93 2060 .37 5719
福建 1.04 53 71 218 63 26 29.01 2099 .29 7106
山西 .85 53 65 218 76 30 25.63 2555 .43 5580
河北 .81 43 66 188 61 23 29.82 2313 .31 5704
-457-
安徽 .59 35 47 146 46 20 32.83 2488 .33 5628
云南 .66 36 40 130 44 19 28.55 1974 .48 9106
江西 .77 43 63 194 67 23 28.81 2515 .34 4085
海南 .70 33 51 165 47 18 27.34 2344 .28 7928
内蒙古 .84 43 48 171 65 29 27.65 2032 .32 5581
西藏 1.69 26 45 137 75 33 12.10 810 1.00 14199
河南 .55 32 46 130 44 17 28.41 2341 .30 5714
广西 .60 28 43 129 39 17 31.93 2146 .24 5139
宁夏 1.39 48 62 208 77 34 22.70 1500 .42 5377
贵州 .64 23 32 93 37 16 28.12 1469 .34 5415
青海 1.48 38 46 151 63 30 17.87 1024 .38 7368
(3)R型聚类分析
定性考察反映高等教育发展状况的五个方面十项评价指标,可以看出,某些指标之
间可能存在较强的相关性。比如每十万人口高等院校毕业生数、每十万人口高等院校招
生数与每十万人口高等院校在校生数之间可能存在较强的相关性, 每十万人口高等院
校教职工数和每十万人口高等院校专职教师数之间可能存在较强的相关性。为了验证这
种想法,运用MATLAB软件计算十个指标之间的相关系数,相关系数矩阵如表6所示。
表6 相关系数矩阵
1 x 2 x 3 x
4 x 5 x 6 x 7 x 8 x 9 x 10 x
1 x 1.0000 0.9434 0.9528 0.9591 0.9746 0.9798 0.4065 0.0663 0.8680 0.6609
2 x 0.9434 1.0000 0.9946 0.9946 0.9743 0.9702 0.6136 0.3500 0.8039 0.5998
3 x 0.9528 0.9946 1.0000 0.9987 0.9831 0.9807 0.6261 0.3445 0.8231 0.6171
4 x 0.9591 0.9946 0.9987 1.0000 0.9878 0.9856 0.6096 0.3256 0.8276 0.6124
5 x 0.9746 0.9743 0.9831 0.9878 1.0000 0.9986 0.5599 0.2411 0.8590 0.6174
6 x 0.9798 0.9702 0.9807 0.9856 0.9986 1.0000 0.5500 0.2222 0.8691 0.6164
7 x 0.4065 0.6136 0.6261 0.6096 0.5599 0.5500 1.0000 0.7789 0.3655 0.1510
8 x 0.0663 0.3500 0.3445 0.3256 0.2411 0.2222 0.7789 1.0000 0.1122 0.0482
9 x 0.8680 0.8039 0.8231 0.8276 0.8590 0.8691 0.3655 0.1122 1.0000 0.6833
10 x 0.6609 0.5998 0.6171 0.6124 0.6174 0.6164 0.1510 0.0482 0.6833 1.0000
可以看出某些指标之间确实存在很强的相关性,因此可以考虑从这些指标中选取
-458-
几个有代表性的指标进行聚类分析。为此,把十个指标根据其相关性进行R型聚类,再
从每个类中选取代表性的指标。首先对每个变量(指标)的数据分别进行标准化处理。
变量间相近性度量采用相关系数,类间相近性度量的计算选用类平均法。聚类树型图见
图5。
3 4 2 5 6 1 9 10 7 8
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
图5 指标聚类树型图
计算的 MATLAB 程序如下:
load gj.txt %把原始数据保存在纯文本文件gj.txt 中
r=corrcoef(gj); %计算相关系数矩阵
d=tril(r); %取出相关系数矩阵的下三角元素
for i=1:10 %对角线元素化成零
d(i,i)=0;
end
d=d(:);
d=nonzeros(d); %取出非零元素
d=d';d=1-d;
z=linkage(d)
dendrogram(z)
从聚类图中可以看出,每十万人口高等院校招生数、每十万人口高等院校在校生数、
每十万人口高等院校教职工数、每十万人口高等院校专职教师数、每十万人口高等院校
毕业生数5 个指标之间有较大的相关性,最先被聚到一起。如果将10 个指标分为6 类,
其它5 个指标各自为一类。这样就从十个指标中选定了六个分析指标:
1 x :每百万人口高等院校数;
2 x :每十万人口高等院校毕业生数;
7 x :高级职称占专职教师的比例;
8 x :平均每所高等院校的在校生数;
-459-
9 x :国家财政预算内普通高教经费占国内生产总值的比重;
10 x :生均教育经费。
可以根据这六个指标对30 个地区进行聚类分析。
(4)Q 型聚类分析
根据这六个指标对30个地区进行聚类分析。首先对每个变量的数据分别进行标准化
处理,样本间相近性采用欧氏距离度量,类间距离的计算选用类平均法。聚类树型图见
图6。
19 26 27 22 14 20 16 24 18 15 23 17 21 5 8 7 6 9 12 11 13 10 4 28 29 30 2 3 25 1
0
1
2
3
4
5
6
7
8
图6 各地区聚类树型图
计算的MATLAB程序如下:
load gj.txt %把原始数据保存在纯文本文件gj.txt中
gj(:,3:6)=[];
gj=zscore(gj);
y=pdist(gj);
z=linkage(y)
dendrogram(z,'average')
4.案例研究结果
各地区高等教育发展状况存在较大的差异,高教资源的地区分布很不均衡。如果根
据各地区高等教育发展状况把30 个地区分为三类,结果为:
第一类:北京;第二类:西藏;第三类:其他地区。
如果根据各地区高等教育发展状况把30个地区分为四类,结果为:
第一类:北京;第二类:西藏;第三类:上海天津;第四类:其他地区。
如果根据各地区高等教育发展状况把30个地区分为五类,结果为:
第一类:北京;第二类:西藏;第三类:上海天津;第四类:宁夏、贵州、青海;
第五类:其他地区。
从以上结果结合聚类图中的合并距离可以看出,北京的高等教育状况与其它地区相
比有非常大的不同,主要表现在每百万人口的学校数量和每十万人口的学生数量以及国
-460- 望尘莫及啊~~{:soso_e101:},我的聚类分析学的一团糟 {:3_59:}{:soso_e100:} 那如果数据特别多,要怎么聚类? 聚类分析跟主成分分析有什么不一样? 能分享下课件吗?{:3_48:}
页:
[1]