数学建模社区-数学中国

标题: python 解决层次聚类 [打印本页]

作者: 2744557306    时间: 2024-3-21 10:54
标题: python 解决层次聚类
层次聚类(Hierarchical Clustering)是一种常见的聚类算法,它将数据点分层次地组织成树状结构,形成一个聚类的层次结构。该算法不需要预先指定要形成的聚类数量,而是根据数据的相似性度量逐步合并最相似的数据点或聚类,直到形成一个包含所有数据点的聚类或满足某个停止条件。" {+ y9 M& H+ H; U. Y
层次聚类算法可以分为两个主要类型:凝聚型(Agglomerative)和分裂型(Divisive)。8 E8 O5 Z% |/ X  k# B
凝聚型层次聚类(自底向上)的工作流程如下:
$ Z2 }; {6 L6 X6 [9 X- h8 A% x9 v, [! A* V# P
1.将每个数据点视为一个初始聚类。
  {+ j# R' d/ U, ^2.计算所有聚类之间的相似性或距离度量。
5 y; N, r$ `5 r6 e4 q) ^3.合并距离最近的两个聚类形成一个新的聚类,更新相似性矩阵。7 L1 w) C0 E# E( b  {
4.重复步骤 3,直到满足停止条件,例如达到指定的聚类数量或某个相似性阈值。
$ m5 [( r7 P; I+ Q6 G& m. j5.最终的层次聚类结果可以表示为树状的聚类结构(树状图或树状图谱),也可以通过截断树状图来获得特定数量的聚类。
/ A/ z- h1 f: [# t/ w/ \8 c; R6 W
7 H: M# e- R9 u+ `* _分裂型层次聚类(自顶向下)与凝聚型相反,它从一个包含所有数据点的初始聚类开始,然后递归地分裂聚类,直到形成单个数据点作为一个独立的聚类。
) |: ]# j0 H! f- D  g2 I层次聚类算法的优点包括不需要预先指定聚类数量、能够提供层次结构的聚类结果以及可以使用不同的相似度度量方法。然而,该算法的计算复杂度较高,尤其在大规模数据集上运行时可能不太高效。( O0 }0 d5 ~( \3 D2 |! X
在Python中,你可以使用scikit-learn库中的AgglomerativeClustering类来实现凝聚型层次聚类算法。该类提供了灵活的参数设置,例如聚类的链接类型、距离度量方法等。
. k3 b: M2 O( q. a0 @$ a5 W: V, }解释代码的含义:4 \2 y% J+ ]! r- N% x! ~
import numpy as np/ F$ E2 E9 g* m9 i1 B" K6 V, M
import pandas as pd
& U% n! g. c+ {: `- ^$ gimport scipy.cluster.hierarchy as sch5 l" Z; X+ h/ C0 m
  F7 t" {% z8 A0 Y
这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,scipy.cluster.hierarchy提供了层次聚类的功能。
  ?' n. f4 W& K6 k( }df = pd.DataFrame({7 |+ K) z$ C) M2 {' {
    'Cu': [2.9909, 3.2044, 2.8392, 2.5315, 2.5897, 2.9600, 3.1184],- G9 p& z. q2 j$ c! |3 V: q1 N
    'W': [.3111, .5348, .5696, .4528, .3010, 3.0480, 2.8395],! b; Q5 q3 x. R# A, X
    'Mo': [.5324, .7718, .7614, .4893, .2735, 1.4997, 1.9350],9 M$ m: |7 Z6 q2 p
})
' i  X' I, T/ d( g) f2 O; a0 R2 a: m' ~( f3 x2 ]  G$ y+ H
这里创建了一个DataFrame对象df,其中包含了三列数据:'Cu'、'W'和'Mo'。每一列代表了一个属性,每行代表一个样本点。
6 Q8 L& t6 ]7 h" S1 a. `5 a3 [dist = sch.distance.pdist(df)
* g5 }5 Z, V/ \  m+ `+ ]
  w) z5 r  F% K这行代码使用scipy.cluster.hierarchy中的pdist函数计算数据帧df中样本点之间的距离。函数返回一个一维数组,该数组包含了所有样本点之间的距离。1 L! z$ |, M- }) L9 r: u
dist_mat = sch.distance.squareform(dist)
# a* Y! g5 ?# W- f# j* D% d+ Q* O9 Q
( t) y- e* o- M, v  I8 f8 e这行代码使用scipy.cluster.hierarchy中的squareform函数将一维数组形式的距离转换为方阵形式的距离矩阵。距离矩阵是一个对称矩阵,其中每个元素表示对应样本点之间的距离。
  M1 ?. o* L# Q7 B' Z  T/ @z = sch.linkage(dist)
7 F2 f% c7 {2 y: ~: J' Z% X! l5 R
9 w2 r/ L$ X7 ?' ^1 s, t8 N& J) {8 X& Q这行代码使用scipy.cluster.hierarchy中的linkage函数进行层次聚类。函数接受距离矩阵作为输入,并基于距离计算样本点之间的相似性。这里使用默认的'single'链接方法,即使用最近邻距离作为聚类相似性的衡量。
% K- r/ a* A. C) r6 [sch.dendrogram(z)
5 I$ Z4 N6 Y4 ^  d# }. e# P5 g( S( }
* j4 X3 ]% H" d8 D: ~( i这行代码使用scipy.cluster.hierarchy中的dendrogram函数绘制树状图。函数接受聚类的连接矩阵z作为输入,并根据聚类的合并信息绘制树状图。树状图展示了每个样本点和聚类之间的层次关系。6 Q# z: q6 X6 Y. s# a: u1 Z
希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。* s# K0 {3 A$ H+ p8 @+ T
" u# v3 c9 K1 F* i

( w' b0 |7 n; f0 `" E. j6 A; x- ~  \
" [  s! V; X+ H  f6 W

29.hierarchical_clustering.py

581 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 2 点体力  [记录]  [购买]






欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5