查看: 2364|回复: 0

python 解决层次聚类

字体大小: 正常放大

1186 主题	4 听众	2923 积分

该用户从未签到

电梯直达

1^#

发表于 2024-3-21 10:54 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

层次聚类（Hierarchical Clustering）是一种常见的聚类算法，它将数据点分层次地组织成树状结构，形成一个聚类的层次结构。该算法不需要预先指定要形成的聚类数量，而是根据数据的相似性度量逐步合并最相似的数据点或聚类，直到形成一个包含所有数据点的聚类或满足某个停止条件。
层次聚类算法可以分为两个主要类型：凝聚型（Agglomerative）和分裂型（Divisive）。
凝聚型层次聚类（自底向上）的工作流程如下：

1.将每个数据点视为一个初始聚类。
2.计算所有聚类之间的相似性或距离度量。
3.合并距离最近的两个聚类形成一个新的聚类，更新相似性矩阵。
4.重复步骤 3，直到满足停止条件，例如达到指定的聚类数量或某个相似性阈值。
5.最终的层次聚类结果可以表示为树状的聚类结构（树状图或树状图谱），也可以通过截断树状图来获得特定数量的聚类。

分裂型层次聚类（自顶向下）与凝聚型相反，它从一个包含所有数据点的初始聚类开始，然后递归地分裂聚类，直到形成单个数据点作为一个独立的聚类。
层次聚类算法的优点包括不需要预先指定聚类数量、能够提供层次结构的聚类结果以及可以使用不同的相似度度量方法。然而，该算法的计算复杂度较高，尤其在大规模数据集上运行时可能不太高效。
在Python中，你可以使用scikit-learn库中的AgglomerativeClustering类来实现凝聚型层次聚类算法。该类提供了灵活的参数设置，例如聚类的链接类型、距离度量方法等。
解释代码的含义：
import numpy as np
import pandas as pd
import scipy.cluster.hierarchy as sch

这些是导入所需的库。numpy用于数值计算，pandas用于数据处理，scipy.cluster.hierarchy提供了层次聚类的功能。
df = pd.DataFrame({
'Cu': [2.9909, 3.2044, 2.8392, 2.5315, 2.5897, 2.9600, 3.1184],
'W': [.3111, .5348, .5696, .4528, .3010, 3.0480, 2.8395],
'Mo': [.5324, .7718, .7614, .4893, .2735, 1.4997, 1.9350],
})

这里创建了一个DataFrame对象df，其中包含了三列数据：'Cu'、'W'和'Mo'。每一列代表了一个属性，每行代表一个样本点。
dist = sch.distance.pdist(df)

这行代码使用scipy.cluster.hierarchy中的pdist函数计算数据帧df中样本点之间的距离。函数返回一个一维数组，该数组包含了所有样本点之间的距离。
dist_mat = sch.distance.squareform(dist)

这行代码使用scipy.cluster.hierarchy中的squareform函数将一维数组形式的距离转换为方阵形式的距离矩阵。距离矩阵是一个对称矩阵，其中每个元素表示对应样本点之间的距离。
z = sch.linkage(dist)

这行代码使用scipy.cluster.hierarchy中的linkage函数进行层次聚类。函数接受距离矩阵作为输入，并基于距离计算样本点之间的相似性。这里使用默认的'single'链接方法，即使用最近邻距离作为聚类相似性的衡量。
sch.dendrogram(z)

这行代码使用scipy.cluster.hierarchy中的dendrogram函数绘制树状图。函数接受聚类的连接矩阵z作为输入，并根据聚类的合并信息绘制树状图。树状图展示了每个样本点和聚类之间的层次关系。
希望这个逐行解释对你有帮助！如果你还有其他问题，请随时提问。