- 在线时间
- 478 小时
- 最后登录
- 2026-4-9
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7788 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2922
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1171
- 主题
- 1186
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
层次聚类(Hierarchical Clustering)是一种常见的聚类算法,它将数据点分层次地组织成树状结构,形成一个聚类的层次结构。该算法不需要预先指定要形成的聚类数量,而是根据数据的相似性度量逐步合并最相似的数据点或聚类,直到形成一个包含所有数据点的聚类或满足某个停止条件。! M$ g* x0 e& [, g9 q
层次聚类算法可以分为两个主要类型:凝聚型(Agglomerative)和分裂型(Divisive)。8 x' ^! P3 m, L
凝聚型层次聚类(自底向上)的工作流程如下:
- _& ~4 Q1 ~/ n! i& A3 T, Y2 J
' V/ M- C4 V; o1 B9 C1.将每个数据点视为一个初始聚类。 v* p0 m1 e- v' _: ~% p. f$ i9 F
2.计算所有聚类之间的相似性或距离度量。/ r1 N( e% }4 y: p7 u* E
3.合并距离最近的两个聚类形成一个新的聚类,更新相似性矩阵。
% G5 B) r. b+ F) F8 ~7 w2 S# X4.重复步骤 3,直到满足停止条件,例如达到指定的聚类数量或某个相似性阈值。
0 {3 s. F ?3 b, t2 V( p; l) c5 D5.最终的层次聚类结果可以表示为树状的聚类结构(树状图或树状图谱),也可以通过截断树状图来获得特定数量的聚类。- m) D9 E9 d5 n* @, d
0 Z, M1 Y7 I, B: \ \ i分裂型层次聚类(自顶向下)与凝聚型相反,它从一个包含所有数据点的初始聚类开始,然后递归地分裂聚类,直到形成单个数据点作为一个独立的聚类。( j6 s% `% z' V5 Z
层次聚类算法的优点包括不需要预先指定聚类数量、能够提供层次结构的聚类结果以及可以使用不同的相似度度量方法。然而,该算法的计算复杂度较高,尤其在大规模数据集上运行时可能不太高效。
3 X4 ~6 ?7 J' _4 M9 w; m在Python中,你可以使用scikit-learn库中的AgglomerativeClustering类来实现凝聚型层次聚类算法。该类提供了灵活的参数设置,例如聚类的链接类型、距离度量方法等。
! u3 w* W; }' O" m) ]( |解释代码的含义:; V! K7 M) W. j5 @
import numpy as np
1 z3 A' m0 q! k% Mimport pandas as pd* g5 t5 x8 v+ H; ]% E8 S/ N
import scipy.cluster.hierarchy as sch
. n) J$ W/ C* m0 J9 A8 x
5 Y; f1 S8 g1 M$ r# j9 _& T0 P这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,scipy.cluster.hierarchy提供了层次聚类的功能。+ f3 r6 y: W# `
df = pd.DataFrame({5 {8 g$ u: F" H2 Q# Z/ T* C
'Cu': [2.9909, 3.2044, 2.8392, 2.5315, 2.5897, 2.9600, 3.1184],
- h! i% K( R( y: i8 N" F 'W': [.3111, .5348, .5696, .4528, .3010, 3.0480, 2.8395],3 Z1 B B# Q0 q7 z
'Mo': [.5324, .7718, .7614, .4893, .2735, 1.4997, 1.9350],& c4 ^* y5 S' j1 U* f
})
/ Z, j% Q0 |' b* N& L
- o' d H# p' W& t1 h+ i这里创建了一个DataFrame对象df,其中包含了三列数据:'Cu'、'W'和'Mo'。每一列代表了一个属性,每行代表一个样本点。/ S' H( c2 e( ^! N' D' g
dist = sch.distance.pdist(df)
1 o! W' S* s0 d2 U1 s+ _
7 Z% C' u5 F) n; T# P' e6 O这行代码使用scipy.cluster.hierarchy中的pdist函数计算数据帧df中样本点之间的距离。函数返回一个一维数组,该数组包含了所有样本点之间的距离。
1 e3 z) A) {5 @: u! udist_mat = sch.distance.squareform(dist)4 p* k" L1 \3 ~
8 |9 M2 d6 d- F
这行代码使用scipy.cluster.hierarchy中的squareform函数将一维数组形式的距离转换为方阵形式的距离矩阵。距离矩阵是一个对称矩阵,其中每个元素表示对应样本点之间的距离。( ~& e3 [' A! k/ n* a% F' m9 D
z = sch.linkage(dist)" w2 j; |; Z' h8 x
1 x% z7 b7 ^' d2 d9 U+ Z6 m$ B' O/ e这行代码使用scipy.cluster.hierarchy中的linkage函数进行层次聚类。函数接受距离矩阵作为输入,并基于距离计算样本点之间的相似性。这里使用默认的'single'链接方法,即使用最近邻距离作为聚类相似性的衡量。
/ o J0 B u; D+ s5 z4 wsch.dendrogram(z). N0 P4 ~4 A) o0 n) f% [( C
) H6 K. B' r2 C& n7 i: F
这行代码使用scipy.cluster.hierarchy中的dendrogram函数绘制树状图。函数接受聚类的连接矩阵z作为输入,并根据聚类的合并信息绘制树状图。树状图展示了每个样本点和聚类之间的层次关系。
! q, x5 T* h1 \) o! g2 k( G* A希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。
9 B/ r0 ~: E0 R# G
$ [5 y3 V' j7 J
. C7 `6 P! D) h! }8 m% y. h$ q3 t1 d0 J0 ?
|
zan
|