- 在线时间
- 480 小时
- 最后登录
- 2026-6-1
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7823 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2934
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1174
- 主题
- 1189
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
层次聚类(Hierarchical Clustering)是一种常见的聚类算法,它将数据点分层次地组织成树状结构,形成一个聚类的层次结构。该算法不需要预先指定要形成的聚类数量,而是根据数据的相似性度量逐步合并最相似的数据点或聚类,直到形成一个包含所有数据点的聚类或满足某个停止条件。
- \* Z7 }' a- k }0 C1 T层次聚类算法可以分为两个主要类型:凝聚型(Agglomerative)和分裂型(Divisive)。
+ \7 e& D! r( Z( D, Z2 Q) Z凝聚型层次聚类(自底向上)的工作流程如下:
( h1 I8 N0 ~9 o" _0 i/ w" `8 r8 z8 R4 B# h0 i+ a# ?! d2 X
1.将每个数据点视为一个初始聚类。7 N5 \# U% u; k) M' `6 K( G
2.计算所有聚类之间的相似性或距离度量。& G& |( q$ H% @: o
3.合并距离最近的两个聚类形成一个新的聚类,更新相似性矩阵。
7 _! |; y! d# M+ C8 m" K S5 |( V4.重复步骤 3,直到满足停止条件,例如达到指定的聚类数量或某个相似性阈值。! @3 O2 @* t8 o' q) \" Y
5.最终的层次聚类结果可以表示为树状的聚类结构(树状图或树状图谱),也可以通过截断树状图来获得特定数量的聚类。$ M5 t$ W4 s* x3 ~; ?
" S2 L( X! n6 D {& D. a' O+ v分裂型层次聚类(自顶向下)与凝聚型相反,它从一个包含所有数据点的初始聚类开始,然后递归地分裂聚类,直到形成单个数据点作为一个独立的聚类。
! c% {. s( U+ W; k _! ]. |层次聚类算法的优点包括不需要预先指定聚类数量、能够提供层次结构的聚类结果以及可以使用不同的相似度度量方法。然而,该算法的计算复杂度较高,尤其在大规模数据集上运行时可能不太高效。2 M v+ K; ]9 T* L4 ~8 i
在Python中,你可以使用scikit-learn库中的AgglomerativeClustering类来实现凝聚型层次聚类算法。该类提供了灵活的参数设置,例如聚类的链接类型、距离度量方法等。
# ^: W( Z _2 J解释代码的含义:7 b- M( v2 h8 K% V$ f) Q/ F5 J: n
import numpy as np
8 r5 O- e4 ?# g3 [import pandas as pd( }, y$ G( y# f. d& T# L8 O
import scipy.cluster.hierarchy as sch# N" S* W5 X: z/ ]9 n
: J% @% T4 k& z3 v2 p- q$ b' e# ~这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,scipy.cluster.hierarchy提供了层次聚类的功能。) i6 i" D* T2 H5 i$ F0 [
df = pd.DataFrame({
. S5 N2 b2 \, r# O/ K 'Cu': [2.9909, 3.2044, 2.8392, 2.5315, 2.5897, 2.9600, 3.1184],
6 f* N9 G5 G1 h. _ 'W': [.3111, .5348, .5696, .4528, .3010, 3.0480, 2.8395],
( H( ?. E7 k# k. N" i1 g- e 'Mo': [.5324, .7718, .7614, .4893, .2735, 1.4997, 1.9350],
8 a8 j6 `2 t1 r' `* p2 G3 Q})
2 x, q! T* L2 o* G/ ?7 u( W# i; k' L" D' p; I
这里创建了一个DataFrame对象df,其中包含了三列数据:'Cu'、'W'和'Mo'。每一列代表了一个属性,每行代表一个样本点。( R# Y Z* ~3 S! G' j
dist = sch.distance.pdist(df)
* q6 E8 D$ s5 o9 t* p( ]; A7 r* T% N# H, c( m0 x
这行代码使用scipy.cluster.hierarchy中的pdist函数计算数据帧df中样本点之间的距离。函数返回一个一维数组,该数组包含了所有样本点之间的距离。3 N# X/ I/ k( |
dist_mat = sch.distance.squareform(dist)
! ^% _; j5 O! F) A: F* ~3 @
_7 w' `$ [( s这行代码使用scipy.cluster.hierarchy中的squareform函数将一维数组形式的距离转换为方阵形式的距离矩阵。距离矩阵是一个对称矩阵,其中每个元素表示对应样本点之间的距离。- H8 a' R" `! W, Y+ X1 ~3 t
z = sch.linkage(dist)+ d1 A4 y4 D7 G: u$ h0 ?- F2 H0 G
( y' D- _" S* r: I; X% x- C
这行代码使用scipy.cluster.hierarchy中的linkage函数进行层次聚类。函数接受距离矩阵作为输入,并基于距离计算样本点之间的相似性。这里使用默认的'single'链接方法,即使用最近邻距离作为聚类相似性的衡量。
" [! B' n" }4 @8 n3 f( }+ Wsch.dendrogram(z)
/ C, `- F5 i* ^4 G! Q: p+ l$ D ]2 k0 r" i+ c
这行代码使用scipy.cluster.hierarchy中的dendrogram函数绘制树状图。函数接受聚类的连接矩阵z作为输入,并根据聚类的合并信息绘制树状图。树状图展示了每个样本点和聚类之间的层次关系。3 t6 c* |2 r* v
希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。
$ q5 m* S" o2 L: Q, ?" h' Q" v6 y/ O. l( x( e& [& x- a
0 m% P9 {4 W2 H7 g: W
' w r# B, U- ^9 @5 d1 `* ^$ Z |
zan
|