- 在线时间
- 479 小时
- 最后登录
- 2026-5-9
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7813 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2931
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1173
- 主题
- 1188
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
层次聚类(Hierarchical Clustering)是一种常见的聚类算法,它将数据点分层次地组织成树状结构,形成一个聚类的层次结构。该算法不需要预先指定要形成的聚类数量,而是根据数据的相似性度量逐步合并最相似的数据点或聚类,直到形成一个包含所有数据点的聚类或满足某个停止条件。1 i8 d: v$ ?" Z
层次聚类算法可以分为两个主要类型:凝聚型(Agglomerative)和分裂型(Divisive)。
0 F2 \6 n- ^, o, x: E" T5 O凝聚型层次聚类(自底向上)的工作流程如下:
; w, m' F. S- l- I
4 n$ T4 K" E1 t1 Z1.将每个数据点视为一个初始聚类。1 G. l+ ^) Z! C% N& r9 I
2.计算所有聚类之间的相似性或距离度量。, G m5 f0 V! N+ d
3.合并距离最近的两个聚类形成一个新的聚类,更新相似性矩阵。; R. j' p- \5 J9 F# n3 U) I% S
4.重复步骤 3,直到满足停止条件,例如达到指定的聚类数量或某个相似性阈值。8 C# ~6 m* p* p6 t( p. A
5.最终的层次聚类结果可以表示为树状的聚类结构(树状图或树状图谱),也可以通过截断树状图来获得特定数量的聚类。7 s' }% [0 A7 K) i' l
( n2 i+ V! b+ E2 n9 x# R+ ?+ T分裂型层次聚类(自顶向下)与凝聚型相反,它从一个包含所有数据点的初始聚类开始,然后递归地分裂聚类,直到形成单个数据点作为一个独立的聚类。
# g" ?8 l- z; D# p: X Y层次聚类算法的优点包括不需要预先指定聚类数量、能够提供层次结构的聚类结果以及可以使用不同的相似度度量方法。然而,该算法的计算复杂度较高,尤其在大规模数据集上运行时可能不太高效。* X5 Z, }/ T2 }( C/ @ R3 k
在Python中,你可以使用scikit-learn库中的AgglomerativeClustering类来实现凝聚型层次聚类算法。该类提供了灵活的参数设置,例如聚类的链接类型、距离度量方法等。& t( x5 I& Q5 [! G0 s0 Y0 U
解释代码的含义:' W2 ^- @' s3 u, h
import numpy as np. N6 d% F4 l% s3 h; P; Y
import pandas as pd
; c/ g8 |9 E/ M8 ?8 \2 Dimport scipy.cluster.hierarchy as sch
) ?: q: o( O$ w6 X6 k* I. R* _7 r
6 q% ]. Y! M e这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,scipy.cluster.hierarchy提供了层次聚类的功能。
' z9 u' q; V; b. e4 p! h7 n; ?8 `df = pd.DataFrame({8 E$ A D3 ^' ?+ s8 [7 T
'Cu': [2.9909, 3.2044, 2.8392, 2.5315, 2.5897, 2.9600, 3.1184],
" M, A' K1 H! r( E( g& g 'W': [.3111, .5348, .5696, .4528, .3010, 3.0480, 2.8395],
8 Y* j* L( D+ w9 n/ F/ D4 R- K+ U W 'Mo': [.5324, .7718, .7614, .4893, .2735, 1.4997, 1.9350],& S5 b/ _6 d6 M; a/ C( C3 S
})
1 p, b3 u# | U: F) }: k; X1 ?
0 Z+ J8 l' q1 J6 I% W' t5 X这里创建了一个DataFrame对象df,其中包含了三列数据:'Cu'、'W'和'Mo'。每一列代表了一个属性,每行代表一个样本点。' c: u2 ], Y+ k& |: t
dist = sch.distance.pdist(df). Q+ p9 Z& d+ w& p. j
5 f& M! M7 ~' N2 A( v这行代码使用scipy.cluster.hierarchy中的pdist函数计算数据帧df中样本点之间的距离。函数返回一个一维数组,该数组包含了所有样本点之间的距离。
; @4 [+ t, M$ Ydist_mat = sch.distance.squareform(dist)
$ `4 V A0 N; ]6 d- k" ~" \/ m: \* j0 v8 g. d8 n5 J
这行代码使用scipy.cluster.hierarchy中的squareform函数将一维数组形式的距离转换为方阵形式的距离矩阵。距离矩阵是一个对称矩阵,其中每个元素表示对应样本点之间的距离。
5 Q! \$ w) o( Z1 yz = sch.linkage(dist): N0 {7 u" {4 r
; E3 f6 h( U1 }8 m
这行代码使用scipy.cluster.hierarchy中的linkage函数进行层次聚类。函数接受距离矩阵作为输入,并基于距离计算样本点之间的相似性。这里使用默认的'single'链接方法,即使用最近邻距离作为聚类相似性的衡量。
9 w6 B* H- Q7 d$ H+ Osch.dendrogram(z) ?3 J& t; v1 F A. d: m
' B( ?; y' q% N1 d9 ]9 F
这行代码使用scipy.cluster.hierarchy中的dendrogram函数绘制树状图。函数接受聚类的连接矩阵z作为输入,并根据聚类的合并信息绘制树状图。树状图展示了每个样本点和聚类之间的层次关系。
5 [2 a$ |8 y" ]9 u$ X! P. o) D希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。
4 p* F, p* o, \ \6 V1 X' N$ B- ~( F, B
& F/ d1 q( V8 {% p A
4 ~2 @; a& @! |* q& ^$ A
! c4 v2 z$ q( A0 Z |
zan
|