- 在线时间
- 479 小时
- 最后登录
- 2026-4-13
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7789 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2922
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1171
- 主题
- 1186
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
层次聚类(Hierarchical Clustering)是一种常见的聚类算法,它将数据点分层次地组织成树状结构,形成一个聚类的层次结构。该算法不需要预先指定要形成的聚类数量,而是根据数据的相似性度量逐步合并最相似的数据点或聚类,直到形成一个包含所有数据点的聚类或满足某个停止条件。
' A) ]& \6 T, @4 O; H6 a层次聚类算法可以分为两个主要类型:凝聚型(Agglomerative)和分裂型(Divisive)。
$ `5 Y) F D3 j7 y E凝聚型层次聚类(自底向上)的工作流程如下:% _2 u; M4 M3 N. [4 n
0 M+ o1 k/ ?2 }3 M1 F* x
1.将每个数据点视为一个初始聚类。* @. H) A) U6 W- K1 N6 g& \
2.计算所有聚类之间的相似性或距离度量。2 c! {# q! L( v
3.合并距离最近的两个聚类形成一个新的聚类,更新相似性矩阵。
# ^/ R; D' M6 A; |; V- {4.重复步骤 3,直到满足停止条件,例如达到指定的聚类数量或某个相似性阈值。- i" {3 ?! ]5 q; \
5.最终的层次聚类结果可以表示为树状的聚类结构(树状图或树状图谱),也可以通过截断树状图来获得特定数量的聚类。1 q& X k% h; Z9 @( q/ a, e
% b7 V4 @$ M# c5 V" g3 i分裂型层次聚类(自顶向下)与凝聚型相反,它从一个包含所有数据点的初始聚类开始,然后递归地分裂聚类,直到形成单个数据点作为一个独立的聚类。5 ]( f" e& A9 y4 P! E
层次聚类算法的优点包括不需要预先指定聚类数量、能够提供层次结构的聚类结果以及可以使用不同的相似度度量方法。然而,该算法的计算复杂度较高,尤其在大规模数据集上运行时可能不太高效。3 b1 X* F% T/ R+ C/ u' v- d
在Python中,你可以使用scikit-learn库中的AgglomerativeClustering类来实现凝聚型层次聚类算法。该类提供了灵活的参数设置,例如聚类的链接类型、距离度量方法等。
$ n# l, q( j6 F% @ M- |' C6 k, ]* j解释代码的含义:1 i- F; x* F2 S* |
import numpy as np6 a r7 \9 }3 d6 U6 T9 c
import pandas as pd
% d! u$ J7 w. X, Simport scipy.cluster.hierarchy as sch
# s3 ?0 Z# P$ k6 T" J% e: ]3 R4 }& g. k( E/ C! e8 V
这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,scipy.cluster.hierarchy提供了层次聚类的功能。
8 P, ?. c8 d# {- g. z- w6 Kdf = pd.DataFrame({% v! s o! D6 U; O8 u0 ^
'Cu': [2.9909, 3.2044, 2.8392, 2.5315, 2.5897, 2.9600, 3.1184],- w' h) U8 Y4 c9 |* s" T( M. R
'W': [.3111, .5348, .5696, .4528, .3010, 3.0480, 2.8395],6 Q# j& a; X6 ?. k; u8 y# k
'Mo': [.5324, .7718, .7614, .4893, .2735, 1.4997, 1.9350],0 p4 x/ i0 k7 F- b1 N8 H
})1 r E2 j3 C5 W5 @9 z
2 H2 o2 n* a# f这里创建了一个DataFrame对象df,其中包含了三列数据:'Cu'、'W'和'Mo'。每一列代表了一个属性,每行代表一个样本点。7 e5 ~4 e# k: r# I9 Q( Q
dist = sch.distance.pdist(df)
9 }3 }( T* V; |* c; A: h% t [4 ]% C4 K
这行代码使用scipy.cluster.hierarchy中的pdist函数计算数据帧df中样本点之间的距离。函数返回一个一维数组,该数组包含了所有样本点之间的距离。- h0 ]" l% W+ T2 V- \
dist_mat = sch.distance.squareform(dist)/ `+ d1 T# D) j9 A8 T
, b/ j7 w; |+ j$ _这行代码使用scipy.cluster.hierarchy中的squareform函数将一维数组形式的距离转换为方阵形式的距离矩阵。距离矩阵是一个对称矩阵,其中每个元素表示对应样本点之间的距离。
, k0 x z$ m5 t2 g0 g" `+ ]0 l: vz = sch.linkage(dist)
( ~1 D6 x2 S3 L( q2 W+ \! z1 H: R9 @( n8 X; o$ w' b
这行代码使用scipy.cluster.hierarchy中的linkage函数进行层次聚类。函数接受距离矩阵作为输入,并基于距离计算样本点之间的相似性。这里使用默认的'single'链接方法,即使用最近邻距离作为聚类相似性的衡量。
9 x7 K. ?. m2 ~/ D( K! hsch.dendrogram(z)
7 A6 `& E$ F" l$ {. X& C, P/ ~( J- }9 k; R' A8 y
这行代码使用scipy.cluster.hierarchy中的dendrogram函数绘制树状图。函数接受聚类的连接矩阵z作为输入,并根据聚类的合并信息绘制树状图。树状图展示了每个样本点和聚类之间的层次关系。
+ c7 A+ z" g# t% e; {- n希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。; A* Z* g; z- U
( I) }4 ?2 e8 v9 I {1 y8 S
) Y' {( R! ^" i7 L) v! w% c( S6 ^3 C! J. \) G: B3 R
|
zan
|