数学建模社区-数学中国

标题: python 解决层次聚类 [打印本页]

作者: 2744557306    时间: 2024-3-21 10:54
标题: python 解决层次聚类
层次聚类(Hierarchical Clustering)是一种常见的聚类算法,它将数据点分层次地组织成树状结构,形成一个聚类的层次结构。该算法不需要预先指定要形成的聚类数量,而是根据数据的相似性度量逐步合并最相似的数据点或聚类,直到形成一个包含所有数据点的聚类或满足某个停止条件。' k3 U  |: f3 N+ o. Z
层次聚类算法可以分为两个主要类型:凝聚型(Agglomerative)和分裂型(Divisive)。) c  R0 p; V- E# ]# m
凝聚型层次聚类(自底向上)的工作流程如下:
7 z$ O, s+ h( o
2 i2 H' D5 N( G% g+ g6 Y1.将每个数据点视为一个初始聚类。
% ]/ {: w! M  }2.计算所有聚类之间的相似性或距离度量。
1 X9 }5 \9 }0 v8 i; r& G3.合并距离最近的两个聚类形成一个新的聚类,更新相似性矩阵。
1 d4 O  ]( A: z5 X9 h4.重复步骤 3,直到满足停止条件,例如达到指定的聚类数量或某个相似性阈值。4 z1 ^$ N% M# W  Y& r: {- j+ }
5.最终的层次聚类结果可以表示为树状的聚类结构(树状图或树状图谱),也可以通过截断树状图来获得特定数量的聚类。
. B, E# e; Z, x; i" G
% }: v1 Z5 K' E; H- V2 p% C分裂型层次聚类(自顶向下)与凝聚型相反,它从一个包含所有数据点的初始聚类开始,然后递归地分裂聚类,直到形成单个数据点作为一个独立的聚类。
2 {, c7 o- [3 T( C$ V层次聚类算法的优点包括不需要预先指定聚类数量、能够提供层次结构的聚类结果以及可以使用不同的相似度度量方法。然而,该算法的计算复杂度较高,尤其在大规模数据集上运行时可能不太高效。) O' C8 N. F- d  p
在Python中,你可以使用scikit-learn库中的AgglomerativeClustering类来实现凝聚型层次聚类算法。该类提供了灵活的参数设置,例如聚类的链接类型、距离度量方法等。
8 r: y: d) Y% o  x7 {1 o解释代码的含义:
' i1 J2 \" U1 ~3 m- m7 Oimport numpy as np* Z" b5 p3 J7 L* v- L6 g6 g
import pandas as pd
4 [$ H! K/ L; L' ^import scipy.cluster.hierarchy as sch( }( a' d) n0 h% @
# C& f4 w0 x: ^4 y; `$ i- c- ]
这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,scipy.cluster.hierarchy提供了层次聚类的功能。$ w4 N3 S3 z3 }
df = pd.DataFrame({
3 N: x! V' D% F, o( m7 G1 P    'Cu': [2.9909, 3.2044, 2.8392, 2.5315, 2.5897, 2.9600, 3.1184],
8 f4 P9 |6 U2 ^0 `9 t! Q# V% V    'W': [.3111, .5348, .5696, .4528, .3010, 3.0480, 2.8395],
8 A1 j" }0 Z  U0 i; c    'Mo': [.5324, .7718, .7614, .4893, .2735, 1.4997, 1.9350],( b, Q  f/ \# D5 h4 T
})
+ u  N1 I: d% }' M3 Y  f
/ w0 `2 l) d: \. C这里创建了一个DataFrame对象df,其中包含了三列数据:'Cu'、'W'和'Mo'。每一列代表了一个属性,每行代表一个样本点。3 q2 A) w) h# L( ^. A& ^- M
dist = sch.distance.pdist(df)
- I2 H) o3 @8 N: Q; L. t8 h/ \( W
( Z# m) W& G8 d这行代码使用scipy.cluster.hierarchy中的pdist函数计算数据帧df中样本点之间的距离。函数返回一个一维数组,该数组包含了所有样本点之间的距离。
6 W+ v: b. Z$ I) h4 pdist_mat = sch.distance.squareform(dist)
2 c5 ~7 Z$ D( E" f+ M! T! l8 S6 u) ^! w8 U/ C4 N) }
这行代码使用scipy.cluster.hierarchy中的squareform函数将一维数组形式的距离转换为方阵形式的距离矩阵。距离矩阵是一个对称矩阵,其中每个元素表示对应样本点之间的距离。$ E* M# A! i3 t7 f( ~# E
z = sch.linkage(dist)9 V' N3 C6 [; V2 I0 m

5 Q) _, U2 G4 x! B这行代码使用scipy.cluster.hierarchy中的linkage函数进行层次聚类。函数接受距离矩阵作为输入,并基于距离计算样本点之间的相似性。这里使用默认的'single'链接方法,即使用最近邻距离作为聚类相似性的衡量。
4 A" z3 i) X  V1 ]& rsch.dendrogram(z)
' ~+ k7 F5 b, f: F& R
' k. ~' |/ B+ u, D这行代码使用scipy.cluster.hierarchy中的dendrogram函数绘制树状图。函数接受聚类的连接矩阵z作为输入,并根据聚类的合并信息绘制树状图。树状图展示了每个样本点和聚类之间的层次关系。
5 G! s; P( X3 U4 Q* ]7 X* o希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。* @: h: i+ c! [" Y
  |$ t) a1 _& L, ~% C

# C, _& j7 Z2 a. G8 A( F  O9 K  g% O4 T* ?; k$ a$ D

29.hierarchical_clustering.py

581 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 2 点体力  [记录]  [购买]






欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5