- 在线时间
- 478 小时
- 最后登录
- 2026-4-9
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7788 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2922
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1171
- 主题
- 1186
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
层次聚类(Hierarchical Clustering)是一种常见的聚类算法,它将数据点分层次地组织成树状结构,形成一个聚类的层次结构。该算法不需要预先指定要形成的聚类数量,而是根据数据的相似性度量逐步合并最相似的数据点或聚类,直到形成一个包含所有数据点的聚类或满足某个停止条件。2 [1 ^5 ]+ K6 i4 B! J: K% b3 T) U" A8 X" g
层次聚类算法可以分为两个主要类型:凝聚型(Agglomerative)和分裂型(Divisive)。" F' l( f! N5 J2 B5 W. e. e( w; v
凝聚型层次聚类(自底向上)的工作流程如下:
1 j7 p! _/ M1 a& q
4 ?+ \* d8 W9 z4 Z @1.将每个数据点视为一个初始聚类。/ F5 l5 }, c/ H
2.计算所有聚类之间的相似性或距离度量。3 ^3 n v1 n6 {: D( L% O; u
3.合并距离最近的两个聚类形成一个新的聚类,更新相似性矩阵。" x3 K. P9 L9 p) ?, e* S% |
4.重复步骤 3,直到满足停止条件,例如达到指定的聚类数量或某个相似性阈值。# L9 @& a* p" `) u" I3 Z [
5.最终的层次聚类结果可以表示为树状的聚类结构(树状图或树状图谱),也可以通过截断树状图来获得特定数量的聚类。
+ s( @8 \8 l! N% O* b$ \
2 d) ^" p2 B4 E3 i分裂型层次聚类(自顶向下)与凝聚型相反,它从一个包含所有数据点的初始聚类开始,然后递归地分裂聚类,直到形成单个数据点作为一个独立的聚类。$ w1 V0 N+ L& P, S1 i) R
层次聚类算法的优点包括不需要预先指定聚类数量、能够提供层次结构的聚类结果以及可以使用不同的相似度度量方法。然而,该算法的计算复杂度较高,尤其在大规模数据集上运行时可能不太高效。
) @* }9 v, ~- ]3 W, S在Python中,你可以使用scikit-learn库中的AgglomerativeClustering类来实现凝聚型层次聚类算法。该类提供了灵活的参数设置,例如聚类的链接类型、距离度量方法等。9 N2 F6 z! I& _9 j e
解释代码的含义:
4 h4 G5 R- ?$ K1 I3 W2 \6 O! e+ Eimport numpy as np
2 C9 \! T+ H) Y" y) C9 b% Wimport pandas as pd
, c( [" S* e4 u* U2 wimport scipy.cluster.hierarchy as sch
) T" U( J( I5 k
) h( ]8 Z$ f& C. N/ S这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,scipy.cluster.hierarchy提供了层次聚类的功能。
, ~- ^4 X; m. _7 `9 edf = pd.DataFrame({
; e3 E$ }6 c+ J7 {( R# W5 N2 \0 x, Y. P 'Cu': [2.9909, 3.2044, 2.8392, 2.5315, 2.5897, 2.9600, 3.1184],6 D& n8 N& R: e
'W': [.3111, .5348, .5696, .4528, .3010, 3.0480, 2.8395],
( \* b: y: ?, ` s9 _ 'Mo': [.5324, .7718, .7614, .4893, .2735, 1.4997, 1.9350],
- c2 y% Y$ @( X) g$ t. K# a})
3 B+ k' \9 x4 a7 K$ `
; ~ A1 f+ t+ O1 B3 m这里创建了一个DataFrame对象df,其中包含了三列数据:'Cu'、'W'和'Mo'。每一列代表了一个属性,每行代表一个样本点。0 Q+ u$ S3 M' Y/ v! l3 f0 u6 H! \7 U2 q
dist = sch.distance.pdist(df)4 c( L& ]# I) S& G5 S
- v3 i. y5 o8 p+ V! K2 j$ l
这行代码使用scipy.cluster.hierarchy中的pdist函数计算数据帧df中样本点之间的距离。函数返回一个一维数组,该数组包含了所有样本点之间的距离。& ^/ V9 R) d5 E+ G0 c$ ^
dist_mat = sch.distance.squareform(dist)
/ |; ]& R0 V4 w) z+ k4 h7 S
5 i. J: y8 ^0 \ X K这行代码使用scipy.cluster.hierarchy中的squareform函数将一维数组形式的距离转换为方阵形式的距离矩阵。距离矩阵是一个对称矩阵,其中每个元素表示对应样本点之间的距离。
' G: R! [- D M3 }7 R: l% I$ w9 g- \7 n1 tz = sch.linkage(dist)
7 O# h9 i* b. h3 Z% h6 ?
u. @! C0 [* m! B* r$ A6 I7 K& G' l这行代码使用scipy.cluster.hierarchy中的linkage函数进行层次聚类。函数接受距离矩阵作为输入,并基于距离计算样本点之间的相似性。这里使用默认的'single'链接方法,即使用最近邻距离作为聚类相似性的衡量。) \( E) I) a# D
sch.dendrogram(z)
8 u) V$ q2 K2 q# U5 j0 h( T6 Y! e7 m/ [- P& K& n
这行代码使用scipy.cluster.hierarchy中的dendrogram函数绘制树状图。函数接受聚类的连接矩阵z作为输入,并根据聚类的合并信息绘制树状图。树状图展示了每个样本点和聚类之间的层次关系。+ g9 G/ `: k4 h9 E; s! E+ p
希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。
( J/ [; {7 M' c# f% z5 \1 S, ]2 D( v, _. r7 ^2 m. U
) C2 T( K9 B, `9 t, \/ ?* V
; Q7 j' a4 `- @ |
zan
|