- 在线时间
- 480 小时
- 最后登录
- 2026-6-1
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7823 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2934
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1174
- 主题
- 1189
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
层次聚类(Hierarchical Clustering)是一种常见的聚类算法,它将数据点分层次地组织成树状结构,形成一个聚类的层次结构。该算法不需要预先指定要形成的聚类数量,而是根据数据的相似性度量逐步合并最相似的数据点或聚类,直到形成一个包含所有数据点的聚类或满足某个停止条件。* r' \) V( X! V( |2 J/ t' i
层次聚类算法可以分为两个主要类型:凝聚型(Agglomerative)和分裂型(Divisive)。! y- S5 K, I' u% l, X
凝聚型层次聚类(自底向上)的工作流程如下:
# _' S; y. M3 L x
3 X8 j% U J5 L! Y- _1.将每个数据点视为一个初始聚类。* d$ s: W+ H: R3 T8 P, W
2.计算所有聚类之间的相似性或距离度量。1 g1 L% w4 _7 a5 Y% `' f( Y8 Z \4 p
3.合并距离最近的两个聚类形成一个新的聚类,更新相似性矩阵。
1 `$ D' ~, U/ M( j/ z' p4.重复步骤 3,直到满足停止条件,例如达到指定的聚类数量或某个相似性阈值。
8 u* L& d% M5 A5.最终的层次聚类结果可以表示为树状的聚类结构(树状图或树状图谱),也可以通过截断树状图来获得特定数量的聚类。
0 w5 I/ b3 f% A4 I) \: {5 s( b- l; r6 v& W& T
分裂型层次聚类(自顶向下)与凝聚型相反,它从一个包含所有数据点的初始聚类开始,然后递归地分裂聚类,直到形成单个数据点作为一个独立的聚类。
- Z. T! R6 |0 E$ S1 o层次聚类算法的优点包括不需要预先指定聚类数量、能够提供层次结构的聚类结果以及可以使用不同的相似度度量方法。然而,该算法的计算复杂度较高,尤其在大规模数据集上运行时可能不太高效。0 s, h8 R. x% v- s. q K; A
在Python中,你可以使用scikit-learn库中的AgglomerativeClustering类来实现凝聚型层次聚类算法。该类提供了灵活的参数设置,例如聚类的链接类型、距离度量方法等。 A/ q; e4 ~ ]- e5 \* b0 m) R
解释代码的含义:
' _/ ~6 ]0 K" Limport numpy as np
4 m8 k- |' H1 D8 uimport pandas as pd
% w$ }' R1 u( f! V+ y2 limport scipy.cluster.hierarchy as sch
' r1 i8 \! L$ b3 C# h' q7 E- N5 p- w. r! D0 |9 n& V. j. a% B9 t
这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,scipy.cluster.hierarchy提供了层次聚类的功能。
( L% r( [+ Q7 E- B- X* k2 Pdf = pd.DataFrame({! p x) a' M5 |) W* f5 `! t& t
'Cu': [2.9909, 3.2044, 2.8392, 2.5315, 2.5897, 2.9600, 3.1184],
0 `; ?7 n( j6 d' d! a' c 'W': [.3111, .5348, .5696, .4528, .3010, 3.0480, 2.8395],( }/ L' l, f7 G$ _; V# e/ i& i1 H
'Mo': [.5324, .7718, .7614, .4893, .2735, 1.4997, 1.9350],
) t- l; \* }; R. l" m})
7 L6 }9 c0 R: Y* u$ y# j6 s0 W1 U
, \6 T/ s# }. B5 G; j' [4 @这里创建了一个DataFrame对象df,其中包含了三列数据:'Cu'、'W'和'Mo'。每一列代表了一个属性,每行代表一个样本点。
" q2 ?3 C: h% j- `, \. qdist = sch.distance.pdist(df)
9 e( X% ]" @# z6 |; F' d$ w6 ^* h, J1 b8 i) d' D8 } O
这行代码使用scipy.cluster.hierarchy中的pdist函数计算数据帧df中样本点之间的距离。函数返回一个一维数组,该数组包含了所有样本点之间的距离。
% B# q* J) \' k3 ~dist_mat = sch.distance.squareform(dist)9 ^1 h1 J! h# T- n
( F# M7 x4 T. K& ^7 T" I8 E这行代码使用scipy.cluster.hierarchy中的squareform函数将一维数组形式的距离转换为方阵形式的距离矩阵。距离矩阵是一个对称矩阵,其中每个元素表示对应样本点之间的距离。5 w3 ]7 g5 g3 m6 i+ e
z = sch.linkage(dist)( X/ j9 H% P% M9 G; P3 y- V
0 ]2 f% z3 k2 }$ l" K A+ ]这行代码使用scipy.cluster.hierarchy中的linkage函数进行层次聚类。函数接受距离矩阵作为输入,并基于距离计算样本点之间的相似性。这里使用默认的'single'链接方法,即使用最近邻距离作为聚类相似性的衡量。
( o( o2 R T$ y: v7 [& A% ?" Qsch.dendrogram(z)
d( U3 r2 c+ f+ @) f% f7 N
* ]6 m, T0 h! D( o* ^2 d x这行代码使用scipy.cluster.hierarchy中的dendrogram函数绘制树状图。函数接受聚类的连接矩阵z作为输入,并根据聚类的合并信息绘制树状图。树状图展示了每个样本点和聚类之间的层次关系。
# [ {* F9 d: s: w希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。
/ l. \6 Y# q8 l# `7 Z
# A5 @: |2 Y$ q5 M- `6 r; g/ h' a+ g7 q9 R
% k K$ h! ]( I9 }/ o4 c( |& j |
zan
|