- 在线时间
- 463 小时
- 最后登录
- 2025-6-15
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7342 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2781
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1156
- 主题
- 1171
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
层次聚类(Hierarchical Clustering)是一种常见的聚类算法,它将数据点分层次地组织成树状结构,形成一个聚类的层次结构。该算法不需要预先指定要形成的聚类数量,而是根据数据的相似性度量逐步合并最相似的数据点或聚类,直到形成一个包含所有数据点的聚类或满足某个停止条件。# r& W9 _8 f5 ?, f6 \
层次聚类算法可以分为两个主要类型:凝聚型(Agglomerative)和分裂型(Divisive)。" H) M' F5 G2 ]5 W) J- F
凝聚型层次聚类(自底向上)的工作流程如下:
1 i. d+ f& m8 q- f! G2 Z, C7 Q0 t/ V+ T' n; u
1.将每个数据点视为一个初始聚类。
6 y7 L" e1 r$ F% s2.计算所有聚类之间的相似性或距离度量。" ?# d: D5 [0 V' @' I) U1 l: A
3.合并距离最近的两个聚类形成一个新的聚类,更新相似性矩阵。
7 u& B- _9 \9 B2 `, c& I2 k4.重复步骤 3,直到满足停止条件,例如达到指定的聚类数量或某个相似性阈值。
, G& s9 V! t2 f2 J' b5.最终的层次聚类结果可以表示为树状的聚类结构(树状图或树状图谱),也可以通过截断树状图来获得特定数量的聚类。
) M+ }2 |3 }8 M& M5 V, D- P/ u3 L7 a, d: R
分裂型层次聚类(自顶向下)与凝聚型相反,它从一个包含所有数据点的初始聚类开始,然后递归地分裂聚类,直到形成单个数据点作为一个独立的聚类。; h' L& ?6 I0 B# B' C
层次聚类算法的优点包括不需要预先指定聚类数量、能够提供层次结构的聚类结果以及可以使用不同的相似度度量方法。然而,该算法的计算复杂度较高,尤其在大规模数据集上运行时可能不太高效。
6 m) S6 i4 E) A2 z2 f' g在Python中,你可以使用scikit-learn库中的AgglomerativeClustering类来实现凝聚型层次聚类算法。该类提供了灵活的参数设置,例如聚类的链接类型、距离度量方法等。
* J3 B/ C5 P' M2 k0 p1 ?9 f0 X解释代码的含义:: g. @/ W* {% P
import numpy as np
9 Y- Z0 S% x7 z, r7 L @- Yimport pandas as pd
% y- `% D4 j2 m1 q2 c. `; W, @import scipy.cluster.hierarchy as sch6 j' _) {' N: K, B
. F% L2 g. w) ]; k这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,scipy.cluster.hierarchy提供了层次聚类的功能。2 r1 }2 _) F9 [7 ?9 w- u
df = pd.DataFrame({
/ I3 m( a: d5 _/ }. v2 _8 l' ? a1 H) v 'Cu': [2.9909, 3.2044, 2.8392, 2.5315, 2.5897, 2.9600, 3.1184],
# Q. }7 n) A- q5 \ 'W': [.3111, .5348, .5696, .4528, .3010, 3.0480, 2.8395],3 p( T7 D' g: J* b. Q; T+ X
'Mo': [.5324, .7718, .7614, .4893, .2735, 1.4997, 1.9350],
i" p2 x: D" K6 x# S: \/ Y})
; w' g& @- |0 F6 r2 [- \' R, [! [& O& R$ M7 A5 b* P6 G( l3 X
这里创建了一个DataFrame对象df,其中包含了三列数据:'Cu'、'W'和'Mo'。每一列代表了一个属性,每行代表一个样本点。, C/ r; l7 u2 G* ]; P: u
dist = sch.distance.pdist(df)' M3 N& u; N }" p
( i5 D0 r) l3 ]. o3 C: I( \
这行代码使用scipy.cluster.hierarchy中的pdist函数计算数据帧df中样本点之间的距离。函数返回一个一维数组,该数组包含了所有样本点之间的距离。
' f% @9 Z p# A: D' xdist_mat = sch.distance.squareform(dist)0 ^- i: {; K( K6 z0 \& w) ^/ d: u
( R6 v8 _3 c6 A1 l6 `; n
这行代码使用scipy.cluster.hierarchy中的squareform函数将一维数组形式的距离转换为方阵形式的距离矩阵。距离矩阵是一个对称矩阵,其中每个元素表示对应样本点之间的距离。+ N% f W8 q% ^
z = sch.linkage(dist)
" r# T. ^6 V+ v% A. @& z
: N$ ?0 t% B- s这行代码使用scipy.cluster.hierarchy中的linkage函数进行层次聚类。函数接受距离矩阵作为输入,并基于距离计算样本点之间的相似性。这里使用默认的'single'链接方法,即使用最近邻距离作为聚类相似性的衡量。
" ~, x; T8 Z* ~' l1 V9 }sch.dendrogram(z)
! Y/ i0 N6 {. L& d
3 b/ M0 S8 d# a这行代码使用scipy.cluster.hierarchy中的dendrogram函数绘制树状图。函数接受聚类的连接矩阵z作为输入,并根据聚类的合并信息绘制树状图。树状图展示了每个样本点和聚类之间的层次关系。$ s3 d* |1 }% G, V% o
希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。) B1 {7 h- i& j( u" h
7 w+ Q' P9 B5 Z
7 o4 {8 K: a. o* O$ V2 e
3 G+ f) ^( w( i: T |
zan
|