数学建模社区-数学中国

标题: python 解决层次聚类 [打印本页]

作者: 2744557306    时间: 2024-3-21 10:54
标题: python 解决层次聚类
层次聚类(Hierarchical Clustering)是一种常见的聚类算法,它将数据点分层次地组织成树状结构,形成一个聚类的层次结构。该算法不需要预先指定要形成的聚类数量,而是根据数据的相似性度量逐步合并最相似的数据点或聚类,直到形成一个包含所有数据点的聚类或满足某个停止条件。  b: d8 ]7 o; }2 N3 J3 |( F$ Y
层次聚类算法可以分为两个主要类型:凝聚型(Agglomerative)和分裂型(Divisive)。
& q  C, M! U' N3 q凝聚型层次聚类(自底向上)的工作流程如下:5 G$ |. h$ ~9 b/ x

: O, r& I+ r9 ^* A2 p5 N5 T" e7 F1.将每个数据点视为一个初始聚类。
6 l" R/ a0 V, l% e, U# S$ Y2.计算所有聚类之间的相似性或距离度量。
+ \% Z3 j3 ?, ?5 e% C3.合并距离最近的两个聚类形成一个新的聚类,更新相似性矩阵。
* ]( d$ x: F0 G  _6 i8 E4.重复步骤 3,直到满足停止条件,例如达到指定的聚类数量或某个相似性阈值。
2 R( ^* O5 `6 B& f, o5.最终的层次聚类结果可以表示为树状的聚类结构(树状图或树状图谱),也可以通过截断树状图来获得特定数量的聚类。  n9 g$ N. y) X2 z5 A

# E' T) m6 ~1 G& j9 d分裂型层次聚类(自顶向下)与凝聚型相反,它从一个包含所有数据点的初始聚类开始,然后递归地分裂聚类,直到形成单个数据点作为一个独立的聚类。$ n4 T6 `8 ~4 l6 s; c
层次聚类算法的优点包括不需要预先指定聚类数量、能够提供层次结构的聚类结果以及可以使用不同的相似度度量方法。然而,该算法的计算复杂度较高,尤其在大规模数据集上运行时可能不太高效。: V) B6 l1 c; S( f1 J+ s6 b* e& z
在Python中,你可以使用scikit-learn库中的AgglomerativeClustering类来实现凝聚型层次聚类算法。该类提供了灵活的参数设置,例如聚类的链接类型、距离度量方法等。
6 t; p" e4 G7 k* z1 ^解释代码的含义:2 r2 q5 r; O2 V1 i
import numpy as np
% L) {: M+ i: Qimport pandas as pd$ O3 C& E; z2 L+ K, c" N% {# g6 m
import scipy.cluster.hierarchy as sch
4 a, F& k) ~) r0 r
5 c& J- m! y& ?0 M( L# i: b这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,scipy.cluster.hierarchy提供了层次聚类的功能。4 i% B8 u% v4 X$ }
df = pd.DataFrame({( k/ }5 q, A2 E2 f
    'Cu': [2.9909, 3.2044, 2.8392, 2.5315, 2.5897, 2.9600, 3.1184],
4 _9 x) u( @( {& H% g' |/ {0 f  n! s    'W': [.3111, .5348, .5696, .4528, .3010, 3.0480, 2.8395],3 K2 [! C9 Z- e: G3 {# n8 [
    'Mo': [.5324, .7718, .7614, .4893, .2735, 1.4997, 1.9350],
* x% H' t0 v# _2 e' d})
( t) j1 A9 z- ~8 {5 {: G8 F& J+ h! s9 k! W
这里创建了一个DataFrame对象df,其中包含了三列数据:'Cu'、'W'和'Mo'。每一列代表了一个属性,每行代表一个样本点。
8 X+ c) H3 n% L* @dist = sch.distance.pdist(df)
: @+ O1 ~9 ~, m5 }; q0 S# t( P, W! X9 O1 @7 b. H1 _7 e4 B% D
这行代码使用scipy.cluster.hierarchy中的pdist函数计算数据帧df中样本点之间的距离。函数返回一个一维数组,该数组包含了所有样本点之间的距离。
1 B' W+ U  |9 K4 `dist_mat = sch.distance.squareform(dist)( d5 I# T/ M( O1 W* T# r

7 D0 i, m+ _* O! y- N这行代码使用scipy.cluster.hierarchy中的squareform函数将一维数组形式的距离转换为方阵形式的距离矩阵。距离矩阵是一个对称矩阵,其中每个元素表示对应样本点之间的距离。* [5 ?+ p& I7 i/ p5 T6 o3 {2 ]7 e
z = sch.linkage(dist)
+ ?. M# U: d# ^( Q# B
2 R$ `$ w. L! x, d; P# r7 l0 L2 k  L这行代码使用scipy.cluster.hierarchy中的linkage函数进行层次聚类。函数接受距离矩阵作为输入,并基于距离计算样本点之间的相似性。这里使用默认的'single'链接方法,即使用最近邻距离作为聚类相似性的衡量。
0 D- @& r0 @* h  D) {sch.dendrogram(z)( K4 O8 v6 _# h* B) X: I1 s' ~
2 b' z: u& L) Y5 [, U2 b. p2 ^. P; A
这行代码使用scipy.cluster.hierarchy中的dendrogram函数绘制树状图。函数接受聚类的连接矩阵z作为输入,并根据聚类的合并信息绘制树状图。树状图展示了每个样本点和聚类之间的层次关系。& L5 F% k1 m  B  x! C. P/ Q9 i/ o
希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。+ N0 l& u. c& |9 X0 k, y4 M6 [/ ]

! q* X: m& R3 m% L5 g( ~. O* j
+ |- |: ~$ A. B& X1 S8 {. r7 X0 e+ A- R( U/ \2 \- B: H

29.hierarchical_clustering.py

581 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 2 点体力  [记录]  [购买]






欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5