- 在线时间
- 478 小时
- 最后登录
- 2026-4-9
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7788 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2922
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1171
- 主题
- 1186
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
层次聚类(Hierarchical Clustering)是一种常见的聚类算法,它将数据点分层次地组织成树状结构,形成一个聚类的层次结构。该算法不需要预先指定要形成的聚类数量,而是根据数据的相似性度量逐步合并最相似的数据点或聚类,直到形成一个包含所有数据点的聚类或满足某个停止条件。
4 E; T4 L8 u( e9 f) c层次聚类算法可以分为两个主要类型:凝聚型(Agglomerative)和分裂型(Divisive)。3 g, Y. p, @2 H; w6 a0 N+ R: }6 H
凝聚型层次聚类(自底向上)的工作流程如下:" U3 t4 t3 r6 ?% J. ?4 }! h4 k; J$ }
7 l8 P* [! \; u9 R) k
1.将每个数据点视为一个初始聚类。! f" _& \( W' t0 J5 p. ]
2.计算所有聚类之间的相似性或距离度量。' E8 T, S0 @0 i6 |
3.合并距离最近的两个聚类形成一个新的聚类,更新相似性矩阵。
& W/ K; n7 P6 b* s4.重复步骤 3,直到满足停止条件,例如达到指定的聚类数量或某个相似性阈值。
) J4 A; V4 X+ m4 N# T5.最终的层次聚类结果可以表示为树状的聚类结构(树状图或树状图谱),也可以通过截断树状图来获得特定数量的聚类。
/ c" ^8 D6 Z' }+ z: v; u# Q2 |. J
7 G9 u y( W, t3 ?; y+ {分裂型层次聚类(自顶向下)与凝聚型相反,它从一个包含所有数据点的初始聚类开始,然后递归地分裂聚类,直到形成单个数据点作为一个独立的聚类。
0 F: C) R5 z) I+ q9 s* z层次聚类算法的优点包括不需要预先指定聚类数量、能够提供层次结构的聚类结果以及可以使用不同的相似度度量方法。然而,该算法的计算复杂度较高,尤其在大规模数据集上运行时可能不太高效。
/ C( m- _! U0 h$ `! _$ s7 C在Python中,你可以使用scikit-learn库中的AgglomerativeClustering类来实现凝聚型层次聚类算法。该类提供了灵活的参数设置,例如聚类的链接类型、距离度量方法等。% F. ^9 s0 c! T9 j9 _
解释代码的含义:
0 l+ L7 }- B0 E8 l7 A) aimport numpy as np
. {+ d" \* k3 X) Z( j9 w4 dimport pandas as pd
' t. N/ }/ ~9 T' ?import scipy.cluster.hierarchy as sch! ^) |8 c7 Z4 o2 Q9 [- H& a
1 Y. _. J; e: q8 [& R n这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,scipy.cluster.hierarchy提供了层次聚类的功能。0 }' L. [' ~$ B5 e/ g9 W6 ^
df = pd.DataFrame({/ D. R! M9 u/ d, D$ R, o
'Cu': [2.9909, 3.2044, 2.8392, 2.5315, 2.5897, 2.9600, 3.1184],
; G1 Y6 U% w4 W( Y8 n: ^8 H0 N1 m3 Z0 f 'W': [.3111, .5348, .5696, .4528, .3010, 3.0480, 2.8395],( y9 B6 A& L& m, M. F1 ?
'Mo': [.5324, .7718, .7614, .4893, .2735, 1.4997, 1.9350],
9 c9 f. q- Q8 g/ I})3 N* _: E: w+ h7 @( m: [6 Z
% o! n! ]- b% n+ P/ }- b* Z这里创建了一个DataFrame对象df,其中包含了三列数据:'Cu'、'W'和'Mo'。每一列代表了一个属性,每行代表一个样本点。
! f1 t0 G6 W6 U1 fdist = sch.distance.pdist(df)
& M9 `- y- ?' v( K* o
% y% b p. B3 D: Y这行代码使用scipy.cluster.hierarchy中的pdist函数计算数据帧df中样本点之间的距离。函数返回一个一维数组,该数组包含了所有样本点之间的距离。/ Q9 r: ~8 V X- N" ]% Z; m, b& @
dist_mat = sch.distance.squareform(dist)
- M7 p$ J, m" T( F0 N) ]/ t7 u. o
; C! V6 f1 ^ i+ l/ `$ P" b1 J这行代码使用scipy.cluster.hierarchy中的squareform函数将一维数组形式的距离转换为方阵形式的距离矩阵。距离矩阵是一个对称矩阵,其中每个元素表示对应样本点之间的距离。' T; A5 Z; M C% K4 @$ l% g$ c2 r
z = sch.linkage(dist)
+ b3 ?0 o3 M! s" E6 h( O% B9 h) R$ b- ^+ }+ `5 |& y, o1 m- C
这行代码使用scipy.cluster.hierarchy中的linkage函数进行层次聚类。函数接受距离矩阵作为输入,并基于距离计算样本点之间的相似性。这里使用默认的'single'链接方法,即使用最近邻距离作为聚类相似性的衡量。( V7 l- b' l, ^6 c" F# v
sch.dendrogram(z)
! @( B& ?2 E4 ]/ E1 e- U$ T! S3 {1 I
这行代码使用scipy.cluster.hierarchy中的dendrogram函数绘制树状图。函数接受聚类的连接矩阵z作为输入,并根据聚类的合并信息绘制树状图。树状图展示了每个样本点和聚类之间的层次关系。7 Y" v Q& H* Y! l5 U% I
希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。
) b1 `6 L% L3 P+ k
3 S" ~9 T: E0 u$ g& G2 I5 ]7 e1 F0 W
0 V: Q) j/ e% Z l+ w! a
' N+ a, q$ d2 }: f; B! q |
zan
|