- 在线时间
- 472 小时
- 最后登录
- 2025-9-5
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7679 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2884
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1161
- 主题
- 1176
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
层次聚类(Hierarchical Clustering)是一种常见的聚类算法,它将数据点分层次地组织成树状结构,形成一个聚类的层次结构。该算法不需要预先指定要形成的聚类数量,而是根据数据的相似性度量逐步合并最相似的数据点或聚类,直到形成一个包含所有数据点的聚类或满足某个停止条件。
3 [" \3 Z8 C5 u. O I层次聚类算法可以分为两个主要类型:凝聚型(Agglomerative)和分裂型(Divisive)。9 A' ?: B% U0 K% `7 _
凝聚型层次聚类(自底向上)的工作流程如下:( j3 W; C/ T6 o" r' Z: b
% V* g' ~2 d7 O2 M, [
1.将每个数据点视为一个初始聚类。3 O; [$ \9 V; m+ k q5 N1 o, \% Z
2.计算所有聚类之间的相似性或距离度量。
3 M: r2 @0 e8 x4 x. S; \6 o, x3.合并距离最近的两个聚类形成一个新的聚类,更新相似性矩阵。
) y; G4 q- ?& C+ }7 F2 H0 V8 v* ?4.重复步骤 3,直到满足停止条件,例如达到指定的聚类数量或某个相似性阈值。$ m3 }' }# l1 e6 ^0 h
5.最终的层次聚类结果可以表示为树状的聚类结构(树状图或树状图谱),也可以通过截断树状图来获得特定数量的聚类。7 c |( v4 |3 j- Q
# R0 }/ R6 c p. P. |8 z6 [$ c分裂型层次聚类(自顶向下)与凝聚型相反,它从一个包含所有数据点的初始聚类开始,然后递归地分裂聚类,直到形成单个数据点作为一个独立的聚类。
7 o( P! X, P! m+ f层次聚类算法的优点包括不需要预先指定聚类数量、能够提供层次结构的聚类结果以及可以使用不同的相似度度量方法。然而,该算法的计算复杂度较高,尤其在大规模数据集上运行时可能不太高效。
9 j7 ]( p3 d5 B1 K- Y在Python中,你可以使用scikit-learn库中的AgglomerativeClustering类来实现凝聚型层次聚类算法。该类提供了灵活的参数设置,例如聚类的链接类型、距离度量方法等。
" X) I) k" W8 ~( s) ]! {解释代码的含义:& ]0 ? S' n: o9 h2 W+ w- t7 u
import numpy as np1 M$ B& s+ d, w* l4 r( @
import pandas as pd# k4 q* r. B6 u1 `
import scipy.cluster.hierarchy as sch
; I- }9 g+ ]! K
7 t0 w, S( Q9 p1 [% l8 q这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,scipy.cluster.hierarchy提供了层次聚类的功能。
9 }, w$ K+ e/ J4 r; xdf = pd.DataFrame({" f: `8 R. _, K- b3 @, N
'Cu': [2.9909, 3.2044, 2.8392, 2.5315, 2.5897, 2.9600, 3.1184],
1 s7 E8 H6 y" V 'W': [.3111, .5348, .5696, .4528, .3010, 3.0480, 2.8395],) s- Y! J! A% S- i
'Mo': [.5324, .7718, .7614, .4893, .2735, 1.4997, 1.9350],# S j( W, m3 x1 C9 y
})+ [7 @$ M. x9 V H, v* K7 e
# f4 T% _$ z( F: A9 X$ E- S这里创建了一个DataFrame对象df,其中包含了三列数据:'Cu'、'W'和'Mo'。每一列代表了一个属性,每行代表一个样本点。
3 [, K) n h1 C6 qdist = sch.distance.pdist(df)0 B+ D* p$ [* p$ F# d4 [! p' R
8 M- n3 q$ A& T/ L1 ?6 f7 ? F1 g
这行代码使用scipy.cluster.hierarchy中的pdist函数计算数据帧df中样本点之间的距离。函数返回一个一维数组,该数组包含了所有样本点之间的距离。8 F) M1 B! e2 I! o+ s% T: ~3 c
dist_mat = sch.distance.squareform(dist)' F5 d( H- m9 v+ j
i& b3 S1 n* P4 m0 I1 N
这行代码使用scipy.cluster.hierarchy中的squareform函数将一维数组形式的距离转换为方阵形式的距离矩阵。距离矩阵是一个对称矩阵,其中每个元素表示对应样本点之间的距离。
* c7 q3 u! e* j' {- Y, Gz = sch.linkage(dist)
$ r) d7 _% q% i% E+ i& h
. @7 J4 Z7 N+ x8 j这行代码使用scipy.cluster.hierarchy中的linkage函数进行层次聚类。函数接受距离矩阵作为输入,并基于距离计算样本点之间的相似性。这里使用默认的'single'链接方法,即使用最近邻距离作为聚类相似性的衡量。& i: N( b- F& r0 a! X* f4 u
sch.dendrogram(z)! z/ E2 Q+ o* p7 f1 T+ f2 j# B7 _- R
' A+ S& G- O& O6 ?$ R
这行代码使用scipy.cluster.hierarchy中的dendrogram函数绘制树状图。函数接受聚类的连接矩阵z作为输入,并根据聚类的合并信息绘制树状图。树状图展示了每个样本点和聚类之间的层次关系。
% e+ K1 i; C; f( F- M; i希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。
|; e% K: ~" H V) j" B3 J
7 K9 R- L6 I' A. u2 _; ~/ H% g9 @9 G w3 q, g! @; g; O
^/ W. N# X/ U. U" f; S0 \# \ |
zan
|