在线时间 479 小时 最后登录 2026-4-17 注册时间 2023-7-11 听众数 4 收听数 0 能力 0 分 体力 7790 点 威望 0 点 阅读权限 255 积分 2923 相册 0 日志 0 记录 0 帖子 1171 主题 1186 精华 0 分享 0 好友 1
该用户从未签到
层次聚类(Hierarchical Clustering)是一种常见的聚类算法,它将数据点分层次地组织成树状结构,形成一个聚类的层次结构。该算法不需要预先指定要形成的聚类数量,而是根据数据的相似性度量逐步合并最相似的数据点或聚类,直到形成一个包含所有数据点的聚类或满足某个停止条件。( b6 z' Y6 s, l) ^4 U Z, Y
层次聚类算法可以分为两个主要类型:凝聚型(Agglomerative)和分裂型(Divisive)。0 F, W) D6 N. a6 m6 S
凝聚型层次聚类(自底向上)的工作流程如下:0 a0 P' W* @! E/ H7 Q5 v
1 W4 q/ L* Y' |/ y; p8 t 1.将每个数据点视为一个初始聚类。4 q8 I; i+ m. l% ^( ^. m
2.计算所有聚类之间的相似性或距离度量。8 ?9 g% L; r0 L4 r& b0 k3 \5 r7 N
3.合并距离最近的两个聚类形成一个新的聚类,更新相似性矩阵。
" T% w8 E: g- G 4.重复步骤 3,直到满足停止条件,例如达到指定的聚类数量或某个相似性阈值。
! [* ?: b3 O' l) t1 j1 c6 \1 { 5.最终的层次聚类结果可以表示为树状的聚类结构(树状图或树状图谱),也可以通过截断树状图来获得特定数量的聚类。2 s$ |$ u. [7 o1 ^
0 ]/ S/ Q3 Z% S6 m) `2 ~ 分裂型层次聚类(自顶向下)与凝聚型相反,它从一个包含所有数据点的初始聚类开始,然后递归地分裂聚类,直到形成单个数据点作为一个独立的聚类。
' m- I! U3 v0 {# ] 层次聚类算法的优点包括不需要预先指定聚类数量、能够提供层次结构的聚类结果以及可以使用不同的相似度度量方法。然而,该算法的计算复杂度较高,尤其在大规模数据集上运行时可能不太高效。9 u5 e/ D; Y+ r* S6 d+ l& p @
在Python中,你可以使用scikit-learn库中的AgglomerativeClustering类来实现凝聚型层次聚类算法。该类提供了灵活的参数设置,例如聚类的链接类型、距离度量方法等。
( L2 H7 Y6 q& [$ I& I8 B5 S' ` 解释代码的含义:
j% F, T3 l- W( X' Y+ l import numpy as np0 a9 H9 s! }8 N* e# Q: ?
import pandas as pd
' u- P% \7 | t, n! C9 V import scipy.cluster.hierarchy as sch( ^, |, ]) W) J. e/ n
4 O8 v2 J C. i# L* C 这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,scipy.cluster.hierarchy提供了层次聚类的功能。0 L' W2 _/ R) x8 C9 v/ Y; M$ l. L
df = pd.DataFrame({
( \8 r S1 [6 K) F, ? 'Cu': [2.9909, 3.2044, 2.8392, 2.5315, 2.5897, 2.9600, 3.1184],' Z# ], Z# K, ?/ N! k
'W': [.3111, .5348, .5696, .4528, .3010, 3.0480, 2.8395],/ I0 a0 a9 N/ R& [1 b
'Mo': [.5324, .7718, .7614, .4893, .2735, 1.4997, 1.9350],8 l- m: y0 @# s) ~+ I3 U3 I
})
+ C e0 f3 t6 }0 \& k
4 F4 O, v, p+ x2 ~$ j i 这里创建了一个DataFrame对象df,其中包含了三列数据:'Cu'、'W'和'Mo'。每一列代表了一个属性,每行代表一个样本点。* Q F( y- S+ ^% G _* ]! u7 z3 @6 c
dist = sch.distance.pdist(df), c/ {5 p4 J `" J' y1 j. @
+ {) r) x4 N- A2 A% m/ q0 N 这行代码使用scipy.cluster.hierarchy中的pdist函数计算数据帧df中样本点之间的距离。函数返回一个一维数组,该数组包含了所有样本点之间的距离。, O/ v0 ?1 O. F" v2 M& G! w
dist_mat = sch.distance.squareform(dist)
# v' w+ |+ n6 l 8 J5 ?% d+ D$ Y% o- L- b4 l& `
这行代码使用scipy.cluster.hierarchy中的squareform函数将一维数组形式的距离转换为方阵形式的距离矩阵。距离矩阵是一个对称矩阵,其中每个元素表示对应样本点之间的距离。- x' S* S- h3 k4 p
z = sch.linkage(dist)" v9 v9 r# @" B: A* E$ m
6 ]& Z' i. Z; r" Y) z R+ Y
这行代码使用scipy.cluster.hierarchy中的linkage函数进行层次聚类。函数接受距离矩阵作为输入,并基于距离计算样本点之间的相似性。这里使用默认的'single'链接方法,即使用最近邻距离作为聚类相似性的衡量。
! s- `7 x" ^: R; E sch.dendrogram(z)* h" W* \3 A) `6 N; P3 h- R1 Z; z
! o# ~# i9 P" a# l 这行代码使用scipy.cluster.hierarchy中的dendrogram函数绘制树状图。函数接受聚类的连接矩阵z作为输入,并根据聚类的合并信息绘制树状图。树状图展示了每个样本点和聚类之间的层次关系。
3 z, y. N( k4 l" \( ~9 u 希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。% `1 q- n" Z U; _+ w7 M) j! O
0 j$ V% i1 A9 t3 t9 o9 `
0 M1 {( _4 `/ p" ^: l
; u! o( H* `# @
zan