- 在线时间
- 480 小时
- 最后登录
- 2026-6-1
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7823 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2934
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1174
- 主题
- 1189
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
层次聚类(Hierarchical Clustering)是一种常见的聚类算法,它将数据点分层次地组织成树状结构,形成一个聚类的层次结构。该算法不需要预先指定要形成的聚类数量,而是根据数据的相似性度量逐步合并最相似的数据点或聚类,直到形成一个包含所有数据点的聚类或满足某个停止条件。, h" W) M7 [/ V& Z* O$ B
层次聚类算法可以分为两个主要类型:凝聚型(Agglomerative)和分裂型(Divisive)。7 C2 V4 R; _6 x
凝聚型层次聚类(自底向上)的工作流程如下:8 M( F3 ^8 W# t1 |) L9 I
- s& _( S" T- Z& w& Z) g! H1.将每个数据点视为一个初始聚类。
" f( x" V1 }* y/ u) v2.计算所有聚类之间的相似性或距离度量。
4 V4 z u1 N- |9 N0 S3 X6 z+ d- M: H3.合并距离最近的两个聚类形成一个新的聚类,更新相似性矩阵。 p, \1 _/ H P1 F% o) T
4.重复步骤 3,直到满足停止条件,例如达到指定的聚类数量或某个相似性阈值。5 x* G3 L6 o/ s/ q' g& f P
5.最终的层次聚类结果可以表示为树状的聚类结构(树状图或树状图谱),也可以通过截断树状图来获得特定数量的聚类。7 b2 H& r$ l ]+ s" @
* ^. C8 x8 G+ a% k4 G5 t( T
分裂型层次聚类(自顶向下)与凝聚型相反,它从一个包含所有数据点的初始聚类开始,然后递归地分裂聚类,直到形成单个数据点作为一个独立的聚类。
z" \3 I: F$ c层次聚类算法的优点包括不需要预先指定聚类数量、能够提供层次结构的聚类结果以及可以使用不同的相似度度量方法。然而,该算法的计算复杂度较高,尤其在大规模数据集上运行时可能不太高效。
) d' I7 P$ U% c. ?0 L+ u在Python中,你可以使用scikit-learn库中的AgglomerativeClustering类来实现凝聚型层次聚类算法。该类提供了灵活的参数设置,例如聚类的链接类型、距离度量方法等。
+ T$ r) v7 s) N9 J0 r* d解释代码的含义:
& z+ A# u$ n% i( X% S4 Rimport numpy as np
% _& y6 S- j" P4 E, ~7 `import pandas as pd
8 E. e. [& C+ k8 V1 Q9 O4 himport scipy.cluster.hierarchy as sch
; v2 V3 T$ x5 [5 R1 Y8 V" P* A$ T0 r9 E+ ]) l* J6 q: m5 T% E! p
这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,scipy.cluster.hierarchy提供了层次聚类的功能。
! b% L' j0 V0 Y5 C2 f% jdf = pd.DataFrame({: w, ? M4 K9 F7 G$ N4 @
'Cu': [2.9909, 3.2044, 2.8392, 2.5315, 2.5897, 2.9600, 3.1184],+ h. u/ T& l1 k5 H8 }
'W': [.3111, .5348, .5696, .4528, .3010, 3.0480, 2.8395],. _) E8 K- ?( w; j
'Mo': [.5324, .7718, .7614, .4893, .2735, 1.4997, 1.9350],) b- z. W; j$ Q8 H, e$ I
})" P5 j" {) h7 I- ?
$ N s% x9 J! U& Q' d4 A9 F
这里创建了一个DataFrame对象df,其中包含了三列数据:'Cu'、'W'和'Mo'。每一列代表了一个属性,每行代表一个样本点。
# \$ i1 {+ w9 y( w2 u6 [1 a8 `- h$ Bdist = sch.distance.pdist(df) s: O* I7 z/ D/ N
8 k5 U' k# U+ r& l& n$ \4 _7 Y3 Z
这行代码使用scipy.cluster.hierarchy中的pdist函数计算数据帧df中样本点之间的距离。函数返回一个一维数组,该数组包含了所有样本点之间的距离。6 ]) `9 C6 Z) h1 z E. _, v
dist_mat = sch.distance.squareform(dist) V1 B/ l8 v+ X; o( U
3 t5 b7 {+ j, `; ?; |
这行代码使用scipy.cluster.hierarchy中的squareform函数将一维数组形式的距离转换为方阵形式的距离矩阵。距离矩阵是一个对称矩阵,其中每个元素表示对应样本点之间的距离。
) N9 p9 b2 k5 L6 vz = sch.linkage(dist)
- R5 |" R3 |+ c$ V8 Z) x# N% w7 c6 q9 v( o6 y
这行代码使用scipy.cluster.hierarchy中的linkage函数进行层次聚类。函数接受距离矩阵作为输入,并基于距离计算样本点之间的相似性。这里使用默认的'single'链接方法,即使用最近邻距离作为聚类相似性的衡量。& M/ P/ D; J" M d, S
sch.dendrogram(z)
7 E, m2 x. C/ l+ C8 r6 G- N! G( g* A! e
. x- t N! c& M这行代码使用scipy.cluster.hierarchy中的dendrogram函数绘制树状图。函数接受聚类的连接矩阵z作为输入,并根据聚类的合并信息绘制树状图。树状图展示了每个样本点和聚类之间的层次关系。/ ~ m+ w- ^) z; b$ V. y
希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。
) h( ~. ~. u0 Y9 `+ G' ?% A
! b$ J4 Z8 m; o! V
/ y( c: s, M, S# }( \' b4 h! r' G# q, G7 K( i, i7 X* p& [
|
zan
|