- 在线时间
- 480 小时
- 最后登录
- 2026-6-1
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7823 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2934
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1174
- 主题
- 1189
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
层次聚类(Hierarchical Clustering)是一种常见的聚类算法,它将数据点分层次地组织成树状结构,形成一个聚类的层次结构。该算法不需要预先指定要形成的聚类数量,而是根据数据的相似性度量逐步合并最相似的数据点或聚类,直到形成一个包含所有数据点的聚类或满足某个停止条件。
! I# L" J* S' c2 \3 h6 \层次聚类算法可以分为两个主要类型:凝聚型(Agglomerative)和分裂型(Divisive)。
! `! U8 z0 G# |: Q' M7 d l K凝聚型层次聚类(自底向上)的工作流程如下:4 s4 {+ T% s; H3 `+ _6 X6 q/ ?% }% a2 n
5 q" q/ V2 B' ~' b6 O
1.将每个数据点视为一个初始聚类。
6 x0 d, `, m2 F9 @2 X5 l, R( m2.计算所有聚类之间的相似性或距离度量。* Y! C" f9 G- g' _- h( U' h& B) C
3.合并距离最近的两个聚类形成一个新的聚类,更新相似性矩阵。
& X( A- H4 a" J) R4.重复步骤 3,直到满足停止条件,例如达到指定的聚类数量或某个相似性阈值。
) {1 C: w( K" J6 Z5.最终的层次聚类结果可以表示为树状的聚类结构(树状图或树状图谱),也可以通过截断树状图来获得特定数量的聚类。
) @, V: f. s; o- [# a7 `# \
" q6 z2 O6 g: y分裂型层次聚类(自顶向下)与凝聚型相反,它从一个包含所有数据点的初始聚类开始,然后递归地分裂聚类,直到形成单个数据点作为一个独立的聚类。/ |" ^! ]6 |9 s1 L3 i
层次聚类算法的优点包括不需要预先指定聚类数量、能够提供层次结构的聚类结果以及可以使用不同的相似度度量方法。然而,该算法的计算复杂度较高,尤其在大规模数据集上运行时可能不太高效。 z& O7 ?0 a0 r+ w
在Python中,你可以使用scikit-learn库中的AgglomerativeClustering类来实现凝聚型层次聚类算法。该类提供了灵活的参数设置,例如聚类的链接类型、距离度量方法等。/ k4 v4 S5 B W! g" ]' o1 T. i) H
解释代码的含义:
, {7 @4 X: m$ K# @! L$ pimport numpy as np
) i* o" y! ^( J. G! B4 P: jimport pandas as pd
; r# \5 c0 Q) q" Jimport scipy.cluster.hierarchy as sch
. s* m5 D: @( J/ |/ G6 n% W- ]
! O6 p3 ^7 M( ]9 @$ N这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,scipy.cluster.hierarchy提供了层次聚类的功能。. U: W- S# G; s
df = pd.DataFrame({+ G/ ]9 p: m& B5 d; i3 I# r
'Cu': [2.9909, 3.2044, 2.8392, 2.5315, 2.5897, 2.9600, 3.1184],1 O$ D0 f& P9 ^6 L" f9 D- G8 X
'W': [.3111, .5348, .5696, .4528, .3010, 3.0480, 2.8395],' E0 H: V4 q+ y7 \% a
'Mo': [.5324, .7718, .7614, .4893, .2735, 1.4997, 1.9350],( H) F2 B( ]: _; w3 e
}) R3 w, b( k8 E6 z3 u% ^
4 [0 C9 u9 ?# L* H这里创建了一个DataFrame对象df,其中包含了三列数据:'Cu'、'W'和'Mo'。每一列代表了一个属性,每行代表一个样本点。/ e& I3 |% f' M+ Z8 a
dist = sch.distance.pdist(df)
1 c0 Z7 i4 d% w: G0 X. y
& v4 G! r+ J+ `这行代码使用scipy.cluster.hierarchy中的pdist函数计算数据帧df中样本点之间的距离。函数返回一个一维数组,该数组包含了所有样本点之间的距离。
# X" M% E# k7 @3 g& ?9 ^, L* W idist_mat = sch.distance.squareform(dist)
; c; Z% _1 R$ f8 h: i
9 }5 r# I5 K( V0 v8 j这行代码使用scipy.cluster.hierarchy中的squareform函数将一维数组形式的距离转换为方阵形式的距离矩阵。距离矩阵是一个对称矩阵,其中每个元素表示对应样本点之间的距离。1 p1 v E _3 N! v6 \3 r& S: a3 d
z = sch.linkage(dist)9 |$ ]7 H% K+ u
0 m M' f S5 {, a
这行代码使用scipy.cluster.hierarchy中的linkage函数进行层次聚类。函数接受距离矩阵作为输入,并基于距离计算样本点之间的相似性。这里使用默认的'single'链接方法,即使用最近邻距离作为聚类相似性的衡量。
- G" h& i3 @. m9 n- t+ Lsch.dendrogram(z)" y- e, e9 m( {: f
5 ?9 g7 L# v9 @3 B3 f* U3 J
这行代码使用scipy.cluster.hierarchy中的dendrogram函数绘制树状图。函数接受聚类的连接矩阵z作为输入,并根据聚类的合并信息绘制树状图。树状图展示了每个样本点和聚类之间的层次关系。1 d- }0 U6 m* j8 _7 ~
希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。
/ ~/ ?) V) k. m9 U; ~- k
; v0 H! o; h. B6 ~( \ T( C
( M% w1 {* _9 s# h8 m8 C5 _2 l, s8 z8 q4 S7 ?2 p
|
zan
|