- 在线时间
- 478 小时
- 最后登录
- 2026-4-9
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7788 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2922
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1171
- 主题
- 1186
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
层次聚类(Hierarchical Clustering)是一种常见的聚类算法,它将数据点分层次地组织成树状结构,形成一个聚类的层次结构。该算法不需要预先指定要形成的聚类数量,而是根据数据的相似性度量逐步合并最相似的数据点或聚类,直到形成一个包含所有数据点的聚类或满足某个停止条件。
0 s7 d) w3 s3 G, s) |5 I, s) ^层次聚类算法可以分为两个主要类型:凝聚型(Agglomerative)和分裂型(Divisive)。
# e1 a3 m8 Z/ J* m2 [凝聚型层次聚类(自底向上)的工作流程如下:
7 A+ x4 l |8 Q! `1 W9 d/ d* t ? u' U& ]1 x$ T3 d3 b
1.将每个数据点视为一个初始聚类。
* i/ y+ r; `/ @% V3 ]' i2.计算所有聚类之间的相似性或距离度量。" i% E( e6 Q9 A" P, `2 T
3.合并距离最近的两个聚类形成一个新的聚类,更新相似性矩阵。
/ z: X- x+ D* g. Z7 s3 s6 W4.重复步骤 3,直到满足停止条件,例如达到指定的聚类数量或某个相似性阈值。6 m A9 V X3 f1 M7 o% z
5.最终的层次聚类结果可以表示为树状的聚类结构(树状图或树状图谱),也可以通过截断树状图来获得特定数量的聚类。 }3 j5 H0 Q2 c Y' Y8 Y, ?
0 ]6 `2 a: X" Q9 [# ^) f% _* @2 K
分裂型层次聚类(自顶向下)与凝聚型相反,它从一个包含所有数据点的初始聚类开始,然后递归地分裂聚类,直到形成单个数据点作为一个独立的聚类。3 d1 J% r6 q+ h& [* S# Q
层次聚类算法的优点包括不需要预先指定聚类数量、能够提供层次结构的聚类结果以及可以使用不同的相似度度量方法。然而,该算法的计算复杂度较高,尤其在大规模数据集上运行时可能不太高效。
* @6 M G$ J+ ~8 D& `3 \1 P0 A在Python中,你可以使用scikit-learn库中的AgglomerativeClustering类来实现凝聚型层次聚类算法。该类提供了灵活的参数设置,例如聚类的链接类型、距离度量方法等。8 Q% s+ O- |/ U$ |
解释代码的含义:- Y1 C3 K( c( J5 V2 ^* V' Z
import numpy as np- T9 u' D- v! `. F- F
import pandas as pd2 w4 f+ p0 ]' I& B4 i; o
import scipy.cluster.hierarchy as sch9 S" ~+ }, a1 \6 \4 n, e* f. B- p
( {# u+ w% R0 f6 D这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,scipy.cluster.hierarchy提供了层次聚类的功能。
+ c0 @ _5 R7 t" T2 x- fdf = pd.DataFrame({! U* a3 c' {, J$ O, C9 H7 J
'Cu': [2.9909, 3.2044, 2.8392, 2.5315, 2.5897, 2.9600, 3.1184],
2 [ m8 t; E) u8 m! u 'W': [.3111, .5348, .5696, .4528, .3010, 3.0480, 2.8395],. T, I# } G8 }7 v; W
'Mo': [.5324, .7718, .7614, .4893, .2735, 1.4997, 1.9350],
- u: D* |1 |9 N3 k})
" X* K% b) _0 g7 y* ~4 x7 v% {
7 @9 ^/ i( O) c/ {: l这里创建了一个DataFrame对象df,其中包含了三列数据:'Cu'、'W'和'Mo'。每一列代表了一个属性,每行代表一个样本点。3 d0 p7 x+ k6 ]4 }5 p
dist = sch.distance.pdist(df)4 }$ A8 o, a5 v3 H) i @" J
, ]% c5 `; \( u+ m- U) u& t g5 [这行代码使用scipy.cluster.hierarchy中的pdist函数计算数据帧df中样本点之间的距离。函数返回一个一维数组,该数组包含了所有样本点之间的距离。
4 |2 g: Q5 n6 b8 C% adist_mat = sch.distance.squareform(dist)
" T/ `" X! F+ L; d
' ^) k, E# T6 U) P$ w- [这行代码使用scipy.cluster.hierarchy中的squareform函数将一维数组形式的距离转换为方阵形式的距离矩阵。距离矩阵是一个对称矩阵,其中每个元素表示对应样本点之间的距离。4 s! k8 V' u- m( p4 n, R
z = sch.linkage(dist)% a: b. m, ] W! k" r, P& W! b
( g g& @5 t- D
这行代码使用scipy.cluster.hierarchy中的linkage函数进行层次聚类。函数接受距离矩阵作为输入,并基于距离计算样本点之间的相似性。这里使用默认的'single'链接方法,即使用最近邻距离作为聚类相似性的衡量。2 t, J) n D# n/ F
sch.dendrogram(z)
) N) f' X0 ` n8 `: d/ o+ b7 t
' C$ Q6 ^4 I9 C8 Z这行代码使用scipy.cluster.hierarchy中的dendrogram函数绘制树状图。函数接受聚类的连接矩阵z作为输入,并根据聚类的合并信息绘制树状图。树状图展示了每个样本点和聚类之间的层次关系。# r# |% {4 o, F
希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。" v- I, m) G* @, e. Z
" G2 O) Z3 g) R; E0 A0 w; k/ x; t. u8 ]1 [1 k+ ?
( j. C% m) t2 B, Z N) L
|
zan
|