数学建模社区-数学中国

标题: python实现k均值聚类 [打印本页]

作者: 2744557306    时间: 2024-3-21 10:57
标题: python实现k均值聚类
K均值聚类(K-means Clustering)是一种常见的聚类算法,它将数据点划分为预先指定数量的聚类。该算法使用迭代的方法,通过最小化样本点与所属聚类中心之间的距离来优化聚类结果。
/ f% t) J( M) ?6 Q' Y3 sK均值聚类算法的步骤如下:$ ~4 j0 }5 }! m6 Y5 I& }
) E8 {: W! L" O- t) e) C
1.随机选择K个初始聚类中心点(质心)。K代表要形成的聚类数量。& F  C4 n& v' G1 w
2.将数据点分配给最近的聚类中心,形成K个聚类。
, g0 m3 i, y0 B3.计算每个聚类的新聚类中心,即将当前所属聚类中的样本点的均值作为新的聚类中心。
& ^- I! j' s& [  A! b2 w4.重复步骤2和步骤3,直到满足某个停止条件,例如聚类中心不再发生变化或达到最大迭代次数。8 E% @( g; C- B

: F2 _2 c6 f, b2 {# f* h$ I0 QK均值聚类算法的优点包括简单、易于实现,以及在大规模数据集上的高效性。然而,该算法对于初始聚类中心的选择敏感,并且对于非凸形状的聚类较为困难。5 \6 z( w6 c4 b2 }- N
在Python中,你可以使用scikit-learn库中的KMeans类来实现K均值聚类算法。该类提供了灵活的参数设置,例如聚类数量、初始聚类中心的选择方法等。
3 e7 r+ |; H/ @1 l" N+ a逐行解释代码的含义:  H9 w! V$ s/ a* c* j0 G& G
import numpy as np
' q( a6 Z0 K' P# C1 p6 E; c. Wimport pandas as pd
  v- A! ~  B6 |! f3 T5 Dimport matplotlib.pyplot as plt
! T5 Y% z1 ^0 }( W( ?" jfrom sklearn.datasets import load_iris9 b! X% ~7 F+ l" p: a- m4 a' v; f
from sklearn.cluster import KMeans; R! N" z, W2 F( z
from sklearn.metrics import silhouette_score( J1 Q7 r- A# Z0 z1 _! R0 \7 W
3 F4 F; t5 H. X+ Q: x+ b: k4 B$ f% A5 r
这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,matplotlib.pyplot用于绘图,sklearn.datasets中的load_iris用于加载鸢尾花数据集,sklearn.cluster中的KMeans用于K均值聚类,sklearn.metrics中的silhouette_score用于计算轮廓系数。. `( Z. X5 p6 f! S& O6 A- m$ i% ^
df = pd.DataFrame(load_iris()['data'], columns=load_iris()['feature_names'])8 w7 z( e' Q9 v. S9 p

" O8 a" a' s; l3 c$ G0 _3 Q这行代码使用load_iris函数加载鸢尾花数据集,并将数据存储到一个DataFrame对象df中。数据集中的每个样本具有4个特征:花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)和花瓣宽度(petal width)。
# `# Q7 F& ^6 H3 p. w8 J$ E2 Qscore_list = []5 ~2 I0 H0 C+ U4 i7 N+ {
for i in range(2, 10):
, m% B* ]0 V. F' w    model = KMeans(i)! ~5 H0 g9 P1 B# W% c) _# E1 r
    model.fit(df.iloc[:,:2])
% }7 y0 j* ]  B- h  M; E1 g    score_list.append(silhouette_score(df, model.labels_))/ q4 N2 O- D! w5 @' {) Q
5 Z9 s& g- {6 S/ w0 k! |3 J; i9 l
plt.plot([i for i in range(2, 10)], score_list)- s3 u0 [( z# U' ~6 n$ l

( L" E4 X5 n1 ^这段代码计算K取不同值时的轮廓系数,并绘制了K值与轮廓系数之间的曲线图。首先,循环从2到9遍历不同的K值。在每次迭代中,创建一个KMeans对象并指定K值,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,计算当前聚类结果的轮廓系数,并将其添加到score_list列表中。最后,使用matplotlib.pyplot绘制K值与轮廓系数之间的曲线图。
9 V$ F1 T# p3 k- b/ Kmodel = KMeans(3)
& H$ S% }! Z5 amodel.fit(df.iloc[:,:2])
. L5 V1 Q' P  q$ d& {4 H$ |df2 = df.iloc[:,:2].copy()
- z+ e/ R' J! u! G. i. j0 edf2['label'] = model.labels_
4 N! x4 Q! u" S) [4 E
$ U9 l+ c7 c, M/ _4 o8 Tfrom plotnine import *2 o" v& r+ @0 c6 _

' y% `5 s8 K4 v5 A" N3 N: ~(' j5 r! e( r" w+ N0 |
    ggplot(df2,aes('sepal length (cm)', 'sepal width (cm)', color='label')): ^# h# \6 }- W( Y* c
    + geom_point()% S2 T; W! b# t
    + theme_matplotlib(): i0 F  K' @; L. ^0 j6 T
)
" o# q1 l7 Q: B0 `: Z. x2 `9 f+ m* t3 d3 d/ W' c3 \
这段代码进行了最终的K均值聚类和绘图。首先,创建一个KMeans对象并指定K值为3,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,创建一个新的DataFrame对象df2,其中包含原始数据集的前两列特征以及聚类结果的标签。然后,导入plotnine库,并使用其提供的函数绘制散点图。通过指定x轴为花萼长度,y轴为花萼宽度,颜色根据聚类标签进行分类。最后,使用theme_matplotlib函数设置绘图的主题样式为与matplotlib兼容的样式。; A/ M/ [5 L( Q0 L2 k$ r: c
希望这个逐行解释对你有所帮助!如果你还有其他问题,请随时提问。
( `# L, Y6 F3 x: |/ D
7 p+ S9 T' I2 ]  b2 j8 w  x9 I( a" B: [6 r. ~* [
4 x  m: p) ]! w  |, W& x

29.kmeans_clustering.py

902 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 2 点体力  [记录]  [购买]






欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5