查看: 1739|回复: 0

python实现k均值聚类

字体大小: 正常放大

1175 主题	4 听众	2842 积分

该用户从未签到

电梯直达

1^#

发表于 2024-3-21 10:57 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

K均值聚类（K-means Clustering）是一种常见的聚类算法，它将数据点划分为预先指定数量的聚类。该算法使用迭代的方法，通过最小化样本点与所属聚类中心之间的距离来优化聚类结果。
K均值聚类算法的步骤如下：

1.随机选择K个初始聚类中心点（质心）。K代表要形成的聚类数量。
2.将数据点分配给最近的聚类中心，形成K个聚类。
3.计算每个聚类的新聚类中心，即将当前所属聚类中的样本点的均值作为新的聚类中心。
4.重复步骤2和步骤3，直到满足某个停止条件，例如聚类中心不再发生变化或达到最大迭代次数。

K均值聚类算法的优点包括简单、易于实现，以及在大规模数据集上的高效性。然而，该算法对于初始聚类中心的选择敏感，并且对于非凸形状的聚类较为困难。
在Python中，你可以使用scikit-learn库中的KMeans类来实现K均值聚类算法。该类提供了灵活的参数设置，例如聚类数量、初始聚类中心的选择方法等。
逐行解释代码的含义：
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

这些是导入所需的库。numpy用于数值计算，pandas用于数据处理，matplotlib.pyplot用于绘图，sklearn.datasets中的load_iris用于加载鸢尾花数据集，sklearn.cluster中的KMeans用于K均值聚类，sklearn.metrics中的silhouette_score用于计算轮廓系数。
df = pd.DataFrame(load_iris()['data'], columns=load_iris()['feature_names'])

这行代码使用load_iris函数加载鸢尾花数据集，并将数据存储到一个DataFrame对象df中。数据集中的每个样本具有4个特征：花萼长度（sepal length）、花萼宽度（sepal width）、花瓣长度（petal length）和花瓣宽度（petal width）。
score_list = []
for i in range(2, 10):
model = KMeans(i)
model.fit(df.iloc[:,:2])
score_list.append(silhouette_score(df, model.labels_))

plt.plot([i for i in range(2, 10)], score_list)

这段代码计算K取不同值时的轮廓系数，并绘制了K值与轮廓系数之间的曲线图。首先，循环从2到9遍历不同的K值。在每次迭代中，创建一个KMeans对象并指定K值，然后使用鸢尾花数据集的前两列特征进行聚类。接下来，计算当前聚类结果的轮廓系数，并将其添加到score_list列表中。最后，使用matplotlib.pyplot绘制K值与轮廓系数之间的曲线图。
model = KMeans(3)
model.fit(df.iloc[:,:2])
df2 = df.iloc[:,:2].copy()
df2['label'] = model.labels_

from plotnine import *

(
ggplot(df2,aes('sepal length (cm)', 'sepal width (cm)', color='label'))
+ geom_point()
+ theme_matplotlib()
)

这段代码进行了最终的K均值聚类和绘图。首先，创建一个KMeans对象并指定K值为3，然后使用鸢尾花数据集的前两列特征进行聚类。接下来，创建一个新的DataFrame对象df2，其中包含原始数据集的前两列特征以及聚类结果的标签。然后，导入plotnine库，并使用其提供的函数绘制散点图。通过指定x轴为花萼长度，y轴为花萼宽度，颜色根据聚类标签进行分类。最后，使用theme_matplotlib函数设置绘图的主题样式为与matplotlib兼容的样式。
希望这个逐行解释对你有所帮助！如果你还有其他问题，请随时提问。