QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2358|回复: 0
打印 上一主题 下一主题

python 解决层次聚类

[复制链接]
字体大小: 正常 放大

1186

主题

4

听众

2922

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-21 10:54 |只看该作者 |正序浏览
|招呼Ta 关注Ta
层次聚类(Hierarchical Clustering)是一种常见的聚类算法,它将数据点分层次地组织成树状结构,形成一个聚类的层次结构。该算法不需要预先指定要形成的聚类数量,而是根据数据的相似性度量逐步合并最相似的数据点或聚类,直到形成一个包含所有数据点的聚类或满足某个停止条件。
8 {& y+ O8 r! G9 V$ h* u+ {& R6 [层次聚类算法可以分为两个主要类型:凝聚型(Agglomerative)和分裂型(Divisive)。
" X5 f4 p) a3 C# Q4 C凝聚型层次聚类(自底向上)的工作流程如下:& n- U3 Q. g+ k3 G: O  E$ A

0 G5 A, p  k1 M& J% _' A0 t1.将每个数据点视为一个初始聚类。/ a- s  |9 \1 q* m* y& X2 ?; S
2.计算所有聚类之间的相似性或距离度量。6 Z& l+ r* E) ^' u7 P6 m  V
3.合并距离最近的两个聚类形成一个新的聚类,更新相似性矩阵。8 e# J! [- p( G5 b( k: U7 f
4.重复步骤 3,直到满足停止条件,例如达到指定的聚类数量或某个相似性阈值。
9 A% G4 o! U) g: O# b5.最终的层次聚类结果可以表示为树状的聚类结构(树状图或树状图谱),也可以通过截断树状图来获得特定数量的聚类。
: k6 _+ E  t5 _3 p4 K0 E+ [4 A2 O
& A2 @* i! o0 J8 W分裂型层次聚类(自顶向下)与凝聚型相反,它从一个包含所有数据点的初始聚类开始,然后递归地分裂聚类,直到形成单个数据点作为一个独立的聚类。
* T" R' M2 r: g9 j$ F% X层次聚类算法的优点包括不需要预先指定聚类数量、能够提供层次结构的聚类结果以及可以使用不同的相似度度量方法。然而,该算法的计算复杂度较高,尤其在大规模数据集上运行时可能不太高效。8 @' E8 D1 f9 W& t/ E2 r
在Python中,你可以使用scikit-learn库中的AgglomerativeClustering类来实现凝聚型层次聚类算法。该类提供了灵活的参数设置,例如聚类的链接类型、距离度量方法等。0 N1 G! ~4 X# |/ }' S
解释代码的含义:
3 H, i7 G9 w2 b! F8 Z# Y* Himport numpy as np
3 F( R* [( n/ j6 X. E& p8 Iimport pandas as pd
- @9 S: v" t! C" _import scipy.cluster.hierarchy as sch# A* n; n% v6 I7 a! s; H3 e% e
/ w+ c5 f3 B/ ]& |1 H
这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,scipy.cluster.hierarchy提供了层次聚类的功能。) r6 C# N' T9 w. u5 [9 N/ W
df = pd.DataFrame({4 W" E. g$ j4 W+ w
    'Cu': [2.9909, 3.2044, 2.8392, 2.5315, 2.5897, 2.9600, 3.1184],, v+ W/ M3 [* S1 c+ @1 z
    'W': [.3111, .5348, .5696, .4528, .3010, 3.0480, 2.8395],# e5 m4 @  g4 Q+ C) ^
    'Mo': [.5324, .7718, .7614, .4893, .2735, 1.4997, 1.9350],
6 u" A) ]4 F2 }' q3 j. l4 H})
% B8 ?9 t: T# p$ \9 M' |( D0 k, L. ^" H9 |% ]. F$ W/ j' k% n1 f
这里创建了一个DataFrame对象df,其中包含了三列数据:'Cu'、'W'和'Mo'。每一列代表了一个属性,每行代表一个样本点。. O2 A( k( ~' D* V8 H- F6 K
dist = sch.distance.pdist(df)
& S6 v# x$ ?. S' Q) Z+ X3 y
/ ~' o% T+ `3 B; A+ {+ {这行代码使用scipy.cluster.hierarchy中的pdist函数计算数据帧df中样本点之间的距离。函数返回一个一维数组,该数组包含了所有样本点之间的距离。- @6 Z0 ~; A0 t$ T1 \4 [
dist_mat = sch.distance.squareform(dist)
0 f/ [" L, J# z* |/ V8 S9 W; a) R  }9 c7 B3 d
这行代码使用scipy.cluster.hierarchy中的squareform函数将一维数组形式的距离转换为方阵形式的距离矩阵。距离矩阵是一个对称矩阵,其中每个元素表示对应样本点之间的距离。
3 r) N" G2 G" m" [z = sch.linkage(dist)
0 a7 \1 D/ N3 l# {
% O0 S  F0 q+ v7 s8 ~9 k这行代码使用scipy.cluster.hierarchy中的linkage函数进行层次聚类。函数接受距离矩阵作为输入,并基于距离计算样本点之间的相似性。这里使用默认的'single'链接方法,即使用最近邻距离作为聚类相似性的衡量。- y) q. V! L+ L( ^' {
sch.dendrogram(z), P2 j  u1 z+ p3 x8 @( I* [

; r% J+ |0 N( y+ R3 |; h这行代码使用scipy.cluster.hierarchy中的dendrogram函数绘制树状图。函数接受聚类的连接矩阵z作为输入,并根据聚类的合并信息绘制树状图。树状图展示了每个样本点和聚类之间的层次关系。6 a' X* }" ]2 h7 u$ E# i/ }* u
希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。
: k$ y3 Y3 ~: b: g) E- J1 j
) O, z2 z+ y6 a
/ [0 q5 B: p3 m) C* u
5 s2 S9 ]' O6 [8 Z6 v, A

29.hierarchical_clustering.py

581 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 2 点体力  [记录]  [购买]

zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-4-12 18:50 , Processed in 0.283944 second(s), 56 queries .

回顶部