K均值聚类(K-means Clustering)是一种常见的聚类算法,它将数据点划分为预先指定数量的聚类。该算法使用迭代的方法,通过最小化样本点与所属聚类中心之间的距离来优化聚类结果。7 @( Z2 G) n; C# |0 y
K均值聚类算法的步骤如下: 2 u1 v6 }6 T& F1 Z$ E9 O% N: v2 y' m* ?1 \2 @
1.随机选择K个初始聚类中心点(质心)。K代表要形成的聚类数量。0 h" q# N/ _! Y; `7 p
2.将数据点分配给最近的聚类中心,形成K个聚类。. H9 T, [7 \% q- |
3.计算每个聚类的新聚类中心,即将当前所属聚类中的样本点的均值作为新的聚类中心。 , g: c$ {/ U% U7 M: F! l `4.重复步骤2和步骤3,直到满足某个停止条件,例如聚类中心不再发生变化或达到最大迭代次数。 & f0 w) S( {' W# R5 F ; Z ]) b* S5 }$ l. KK均值聚类算法的优点包括简单、易于实现,以及在大规模数据集上的高效性。然而,该算法对于初始聚类中心的选择敏感,并且对于非凸形状的聚类较为困难。7 l2 V Y) O' b6 }+ B4 E( M& \
在Python中,你可以使用scikit-learn库中的KMeans类来实现K均值聚类算法。该类提供了灵活的参数设置,例如聚类数量、初始聚类中心的选择方法等。. A+ e/ n, S& K! H9 w. ]
逐行解释代码的含义: % R, M* `* ~9 V: g1 Fimport numpy as np* K0 f- o0 L `+ K7 S! a- Y
import pandas as pd 2 x! B# H; T) @import matplotlib.pyplot as plt# ^" a5 b0 r" O0 {+ D8 n3 W
from sklearn.datasets import load_iris ' b: H# b& n1 ~( E! H% }from sklearn.cluster import KMeans ) ^* i+ [! a- b4 Cfrom sklearn.metrics import silhouette_score5 j3 i! Y& B7 ?) ?8 T
$ M/ H b- w3 Z# b f这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,matplotlib.pyplot用于绘图,sklearn.datasets中的load_iris用于加载鸢尾花数据集,sklearn.cluster中的KMeans用于K均值聚类,sklearn.metrics中的silhouette_score用于计算轮廓系数。 / y5 K5 k! J4 D) }df = pd.DataFrame(load_iris()['data'], columns=load_iris()['feature_names']) 0 q& { d, L7 u1 }, X - l& E8 R: ~' a1 n这行代码使用load_iris函数加载鸢尾花数据集,并将数据存储到一个DataFrame对象df中。数据集中的每个样本具有4个特征:花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)和花瓣宽度(petal width)。3 M$ z8 J) j2 m. e
score_list = []' a w" \) ^- U. v6 e/ C
for i in range(2, 10): 8 a$ a z/ A4 i$ o4 i4 k$ g3 A model = KMeans(i)3 m( I/ O- L2 l1 e9 G$ x1 W
model.fit(df.iloc[:,:2]) p, {2 Z3 j' a
score_list.append(silhouette_score(df, model.labels_)) - f7 d3 P& e$ W' @% K& n( b" I
plt.plot([i for i in range(2, 10)], score_list) * g4 s- j) D" v# U e8 O # L/ r" {9 g* t6 n" U! D) Q: U这段代码计算K取不同值时的轮廓系数,并绘制了K值与轮廓系数之间的曲线图。首先,循环从2到9遍历不同的K值。在每次迭代中,创建一个KMeans对象并指定K值,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,计算当前聚类结果的轮廓系数,并将其添加到score_list列表中。最后,使用matplotlib.pyplot绘制K值与轮廓系数之间的曲线图。: D, s0 p( |# v
model = KMeans(3) ( `3 R. Y7 K6 U2 Y1 U# S3 n% amodel.fit(df.iloc[:,:2]): O" M- ]8 ?4 K) T% c, p$ [( V
df2 = df.iloc[:,:2].copy() ) n2 R1 D: p' ?6 E3 idf2['label'] = model.labels_: a/ Q1 Q2 C0 y$ c9 z
1 r1 y' O- u8 [/ L
from plotnine import *4 O; x. C2 H/ ?! g# s$ u1 F
# F3 v* E/ F5 Z- t, U6 G( 8 Z' Q# P j7 z, x) G; Z- } ggplot(df2,aes('sepal length (cm)', 'sepal width (cm)', color='label'))+ ~+ |% y0 k* {+ b4 U' `& b
+ geom_point()' v, o1 l/ }& X
+ theme_matplotlib(). ?; s- F) \4 ]
)$ d4 o' P$ I. d0 l4 M
) i) R( {; w k这段代码进行了最终的K均值聚类和绘图。首先,创建一个KMeans对象并指定K值为3,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,创建一个新的DataFrame对象df2,其中包含原始数据集的前两列特征以及聚类结果的标签。然后,导入plotnine库,并使用其提供的函数绘制散点图。通过指定x轴为花萼长度,y轴为花萼宽度,颜色根据聚类标签进行分类。最后,使用theme_matplotlib函数设置绘图的主题样式为与matplotlib兼容的样式。8 k# N0 }* [' f E0 _
希望这个逐行解释对你有所帮助!如果你还有其他问题,请随时提问。0 u5 i2 B. c) T0 {
% j5 W8 K4 A: M% A 6 c2 b+ D: k/ y. W , W" T, {# z; o' @7 ~( r, ^4 Y