- 在线时间
- 478 小时
- 最后登录
- 2026-4-9
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7788 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2922
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1171
- 主题
- 1186
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
层次聚类(Hierarchical Clustering)是一种常见的聚类算法,它将数据点分层次地组织成树状结构,形成一个聚类的层次结构。该算法不需要预先指定要形成的聚类数量,而是根据数据的相似性度量逐步合并最相似的数据点或聚类,直到形成一个包含所有数据点的聚类或满足某个停止条件。; y3 `* ]% }0 Q
层次聚类算法可以分为两个主要类型:凝聚型(Agglomerative)和分裂型(Divisive)。
: b( {0 \8 D, [ E5 l% l凝聚型层次聚类(自底向上)的工作流程如下:9 I2 ]7 \4 `. v4 a- s. a
5 x) t# K: }* B$ C1.将每个数据点视为一个初始聚类。
- Y: i& W& D( j; Q4 `2.计算所有聚类之间的相似性或距离度量。
0 \8 \) @: m5 }+ a3 W9 ], y% N3.合并距离最近的两个聚类形成一个新的聚类,更新相似性矩阵。& r$ Q# O6 @# @( r* I) Z. \% M$ l* ?2 L. i
4.重复步骤 3,直到满足停止条件,例如达到指定的聚类数量或某个相似性阈值。% g* O4 _8 P" m2 C5 b; i
5.最终的层次聚类结果可以表示为树状的聚类结构(树状图或树状图谱),也可以通过截断树状图来获得特定数量的聚类。
4 x3 ~8 u. }$ p* t* ~: I" I7 n0 |6 {4 w+ D$ N5 o7 ~( x# }: m: p+ T, \
分裂型层次聚类(自顶向下)与凝聚型相反,它从一个包含所有数据点的初始聚类开始,然后递归地分裂聚类,直到形成单个数据点作为一个独立的聚类。
0 u3 U, C# E- I5 B9 T+ K3 F层次聚类算法的优点包括不需要预先指定聚类数量、能够提供层次结构的聚类结果以及可以使用不同的相似度度量方法。然而,该算法的计算复杂度较高,尤其在大规模数据集上运行时可能不太高效。: R* ]5 M, M" R l
在Python中,你可以使用scikit-learn库中的AgglomerativeClustering类来实现凝聚型层次聚类算法。该类提供了灵活的参数设置,例如聚类的链接类型、距离度量方法等。- o% w D7 x9 q8 V9 f9 J: ~
解释代码的含义:
# _4 L% i) f0 F7 iimport numpy as np
( W L5 W1 a* }; S* K6 timport pandas as pd
6 q+ v) r( U4 |7 X& |import scipy.cluster.hierarchy as sch
* U6 G0 Y# u3 y- E3 C
$ W3 V. H( `1 l' F f这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,scipy.cluster.hierarchy提供了层次聚类的功能。
2 Q4 P$ E$ ^; x. n" p+ v F) Ndf = pd.DataFrame({& B% ~ w$ ~- Y6 @, i2 V+ n4 t; h& \
'Cu': [2.9909, 3.2044, 2.8392, 2.5315, 2.5897, 2.9600, 3.1184],4 h/ T) q4 R8 W, ^
'W': [.3111, .5348, .5696, .4528, .3010, 3.0480, 2.8395],% X' y6 j% z3 o; s6 ^ t, m% x
'Mo': [.5324, .7718, .7614, .4893, .2735, 1.4997, 1.9350],
" J" [8 m' I7 D0 A' t& W' H I})
0 U3 i4 T _2 ~
% U' I+ A) g4 ~这里创建了一个DataFrame对象df,其中包含了三列数据:'Cu'、'W'和'Mo'。每一列代表了一个属性,每行代表一个样本点。6 }; W7 S4 K( P/ w! n1 ]* p- Y
dist = sch.distance.pdist(df)
5 V! m! I8 Q% K7 ^# ?/ w
- m5 C# @, L' u1 t% `% p8 z这行代码使用scipy.cluster.hierarchy中的pdist函数计算数据帧df中样本点之间的距离。函数返回一个一维数组,该数组包含了所有样本点之间的距离。
/ r: T% i! ?2 t0 m9 n# edist_mat = sch.distance.squareform(dist)
G: q& d8 Y5 u8 ?
; r& m% d6 L7 z! b8 P5 {这行代码使用scipy.cluster.hierarchy中的squareform函数将一维数组形式的距离转换为方阵形式的距离矩阵。距离矩阵是一个对称矩阵,其中每个元素表示对应样本点之间的距离。9 @" P' t; p+ R) o6 J {/ ]3 A
z = sch.linkage(dist): D7 z0 Y. r9 O1 D
/ r. f. [4 g* S9 k
这行代码使用scipy.cluster.hierarchy中的linkage函数进行层次聚类。函数接受距离矩阵作为输入,并基于距离计算样本点之间的相似性。这里使用默认的'single'链接方法,即使用最近邻距离作为聚类相似性的衡量。
! k0 P1 X7 g; Z+ C7 V) [sch.dendrogram(z)4 r5 P0 }9 J8 q" b2 B8 F) k7 P
5 A3 o$ m! u4 W" p; y1 t这行代码使用scipy.cluster.hierarchy中的dendrogram函数绘制树状图。函数接受聚类的连接矩阵z作为输入,并根据聚类的合并信息绘制树状图。树状图展示了每个样本点和聚类之间的层次关系。5 H0 S$ P4 S7 f, {5 r& t, ]
希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。
4 c: w5 l7 l- k, G% p$ N1 x' K/ [4 |( X8 f
* Q( q# _) J; i# c
; Q' Z8 }; D( }4 Y$ p' [
|
zan
|