在线时间 478 小时 最后登录 2026-4-9 注册时间 2023-7-11 听众数 4 收听数 0 能力 0 分 体力 7788 点 威望 0 点 阅读权限 255 积分 2922 相册 0 日志 0 记录 0 帖子 1171 主题 1186 精华 0 分享 0 好友 1
该用户从未签到
层次聚类(Hierarchical Clustering)是一种常见的聚类算法,它将数据点分层次地组织成树状结构,形成一个聚类的层次结构。该算法不需要预先指定要形成的聚类数量,而是根据数据的相似性度量逐步合并最相似的数据点或聚类,直到形成一个包含所有数据点的聚类或满足某个停止条件。; Z" A$ Y0 x* [
层次聚类算法可以分为两个主要类型:凝聚型(Agglomerative)和分裂型(Divisive)。' e: m: T. g& T ^
凝聚型层次聚类(自底向上)的工作流程如下:. b7 W; `- ~- Q+ g+ S4 l7 C
5 S) i h0 I* Y: P
1.将每个数据点视为一个初始聚类。- O! U4 T, `4 J; B
2.计算所有聚类之间的相似性或距离度量。
; \: P7 r, R2 a4 O1 o# ? 3.合并距离最近的两个聚类形成一个新的聚类,更新相似性矩阵。
- f' [ }; X1 z( c& W' D 4.重复步骤 3,直到满足停止条件,例如达到指定的聚类数量或某个相似性阈值。' K& `: |& T0 ^. Y
5.最终的层次聚类结果可以表示为树状的聚类结构(树状图或树状图谱),也可以通过截断树状图来获得特定数量的聚类。& |% D3 P; P Q- B% ^, J
! R' ]2 ~" d/ I
分裂型层次聚类(自顶向下)与凝聚型相反,它从一个包含所有数据点的初始聚类开始,然后递归地分裂聚类,直到形成单个数据点作为一个独立的聚类。
+ k+ I: C: Y$ @2 O: q 层次聚类算法的优点包括不需要预先指定聚类数量、能够提供层次结构的聚类结果以及可以使用不同的相似度度量方法。然而,该算法的计算复杂度较高,尤其在大规模数据集上运行时可能不太高效。8 \1 x3 |/ M4 n; R0 @, _
在Python中,你可以使用scikit-learn库中的AgglomerativeClustering类来实现凝聚型层次聚类算法。该类提供了灵活的参数设置,例如聚类的链接类型、距离度量方法等。
9 V6 A+ ]. {0 H1 {$ u# a$ l 解释代码的含义:
* p4 h: r# n, Z! `$ ` import numpy as np
5 ^/ g$ P1 `% O4 t `! s; L* V import pandas as pd
0 R% v' N2 ` Z! A0 O* i$ L' e import scipy.cluster.hierarchy as sch
6 h% }: e5 Y N3 k- W
! U* N, w, p, l, F 这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,scipy.cluster.hierarchy提供了层次聚类的功能。
* K, A; u1 t/ y2 ^( s# L1 x df = pd.DataFrame({
3 C8 B+ n2 F& L* u+ j5 r$ T 'Cu': [2.9909, 3.2044, 2.8392, 2.5315, 2.5897, 2.9600, 3.1184],
' [& y {( g) m/ l, H: z 'W': [.3111, .5348, .5696, .4528, .3010, 3.0480, 2.8395], `, X+ S% Y9 v5 o# {
'Mo': [.5324, .7718, .7614, .4893, .2735, 1.4997, 1.9350],( h, _7 Y; B0 L5 ^& l. [
})
) d( j6 v) A. X$ G2 { $ `3 t4 ~! H: \0 y4 l/ H: ^% L: @
这里创建了一个DataFrame对象df,其中包含了三列数据:'Cu'、'W'和'Mo'。每一列代表了一个属性,每行代表一个样本点。
0 c- E+ J6 Q% Z* X' C dist = sch.distance.pdist(df)3 w1 X' D+ [# L0 ~; _
; E3 q$ Z& e; J. |( v
这行代码使用scipy.cluster.hierarchy中的pdist函数计算数据帧df中样本点之间的距离。函数返回一个一维数组,该数组包含了所有样本点之间的距离。
T w: y1 o- e3 k% i9 X dist_mat = sch.distance.squareform(dist)/ z* ^; x( N; |3 V7 Z
+ G3 i9 {- h+ u+ l; v' Y$ p% _4 t
这行代码使用scipy.cluster.hierarchy中的squareform函数将一维数组形式的距离转换为方阵形式的距离矩阵。距离矩阵是一个对称矩阵,其中每个元素表示对应样本点之间的距离。
$ z0 p/ A1 x/ u5 _# @; q1 V z = sch.linkage(dist)) v9 _( n, {& @! P; [! |
* n6 r5 P2 f. |" b. V' t 这行代码使用scipy.cluster.hierarchy中的linkage函数进行层次聚类。函数接受距离矩阵作为输入,并基于距离计算样本点之间的相似性。这里使用默认的'single'链接方法,即使用最近邻距离作为聚类相似性的衡量。$ I1 Y* K8 F& g0 y; u5 e; S
sch.dendrogram(z)( Q6 _% _4 E$ K2 r& Y5 B! q
* ?- V. R) c! L7 g/ ^ 这行代码使用scipy.cluster.hierarchy中的dendrogram函数绘制树状图。函数接受聚类的连接矩阵z作为输入,并根据聚类的合并信息绘制树状图。树状图展示了每个样本点和聚类之间的层次关系。$ Y1 a, O3 Z- U2 C D+ C9 A; A
希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。. v5 N9 m: j) v" j
0 y5 z/ }; ^" L3 n8 h4 C & @: g' e8 H* k9 Y. }- ^7 e
# ?- Q2 A _( A( J
zan