QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2337|回复: 0
打印 上一主题 下一主题

python实现k均值聚类

[复制链接]
字体大小: 正常 放大

1189

主题

4

听众

2934

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-21 10:57 |只看该作者 |正序浏览
|招呼Ta 关注Ta
K均值聚类(K-means Clustering)是一种常见的聚类算法,它将数据点划分为预先指定数量的聚类。该算法使用迭代的方法,通过最小化样本点与所属聚类中心之间的距离来优化聚类结果。
9 I9 E& }# o' `* R) T2 GK均值聚类算法的步骤如下:
+ n8 y- d! W+ y* F9 O0 \' u6 ?" C
- p& k% {0 a7 N& L2 N' V; U1.随机选择K个初始聚类中心点(质心)。K代表要形成的聚类数量。
$ ^/ {1 ^7 f0 p/ Q' i# \2.将数据点分配给最近的聚类中心,形成K个聚类。! u  Z5 t  Y; f- j+ d4 g# ^
3.计算每个聚类的新聚类中心,即将当前所属聚类中的样本点的均值作为新的聚类中心。
8 H# p; |+ f- O/ |0 U4.重复步骤2和步骤3,直到满足某个停止条件,例如聚类中心不再发生变化或达到最大迭代次数。
- b! f1 H( _2 @- q2 m- E
4 _' i( r3 U6 j4 qK均值聚类算法的优点包括简单、易于实现,以及在大规模数据集上的高效性。然而,该算法对于初始聚类中心的选择敏感,并且对于非凸形状的聚类较为困难。4 y! y$ n8 h; I% M. I9 T! z0 V6 V
在Python中,你可以使用scikit-learn库中的KMeans类来实现K均值聚类算法。该类提供了灵活的参数设置,例如聚类数量、初始聚类中心的选择方法等。: j; J" E* x9 _
逐行解释代码的含义:
- |/ o" H: B, }. o% @7 b+ Z& S+ T% oimport numpy as np
& z2 ~0 ~8 a0 l! Simport pandas as pd. D* u9 Q* G; n; m0 C3 F2 b
import matplotlib.pyplot as plt
3 \- X5 f- R- D8 P! V0 D* Vfrom sklearn.datasets import load_iris
4 \8 B9 l: S$ T# G& _/ p* Qfrom sklearn.cluster import KMeans4 r) x6 k/ l2 H' t$ \
from sklearn.metrics import silhouette_score# k: G- t1 I- R" f: @2 T% Z+ ?5 ?

9 L3 w- C* @  f" [这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,matplotlib.pyplot用于绘图,sklearn.datasets中的load_iris用于加载鸢尾花数据集,sklearn.cluster中的KMeans用于K均值聚类,sklearn.metrics中的silhouette_score用于计算轮廓系数。+ x) q6 n& ?$ Y) ?8 J6 M
df = pd.DataFrame(load_iris()['data'], columns=load_iris()['feature_names']), Z# T; w" [8 s, o  X

  d8 g  {5 U$ N4 c  C# b这行代码使用load_iris函数加载鸢尾花数据集,并将数据存储到一个DataFrame对象df中。数据集中的每个样本具有4个特征:花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)和花瓣宽度(petal width)。, h" r' k% u$ j
score_list = []. e' |9 @+ y: U2 I( b! @
for i in range(2, 10):  \  b8 w1 N+ U2 |* Z
    model = KMeans(i)5 P6 g6 e. y, [0 P$ @' J
    model.fit(df.iloc[:,:2])
0 w/ R  s% X) b! v    score_list.append(silhouette_score(df, model.labels_))1 E  `9 l" Z7 t) f
) `% D/ {9 U( `- N! M! @1 w
plt.plot([i for i in range(2, 10)], score_list)
8 @  J9 r! T9 Y& K9 K6 r0 V( \- h5 ~" }& p  M" d( f
这段代码计算K取不同值时的轮廓系数,并绘制了K值与轮廓系数之间的曲线图。首先,循环从2到9遍历不同的K值。在每次迭代中,创建一个KMeans对象并指定K值,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,计算当前聚类结果的轮廓系数,并将其添加到score_list列表中。最后,使用matplotlib.pyplot绘制K值与轮廓系数之间的曲线图。+ M, C$ D- `2 j8 l# a* P$ V
model = KMeans(3)# M& i0 X# a7 ?0 `# X( X4 q; H! M
model.fit(df.iloc[:,:2])
# b. h5 Z  s, V. sdf2 = df.iloc[:,:2].copy()# ?; n" `, P- Y4 B; W9 b% W
df2['label'] = model.labels_
4 R' l+ U( J6 ~7 Z
4 m0 w# u! s, {+ Vfrom plotnine import *
* Z, t: o1 ?: M% C; Z: W3 n4 r6 t9 p
(; p/ t. d& g9 \- d; ?: e
    ggplot(df2,aes('sepal length (cm)', 'sepal width (cm)', color='label'))
2 X$ b' B" F8 G8 I    + geom_point()
, s* ^' r, b' T* I' F/ R4 q. S    + theme_matplotlib()
# J* ~+ @  S9 `& n)- F/ [$ g+ G& `7 d) Q6 X& B/ A

( A6 T& i' A  X8 h" R8 R4 ]  ~, n这段代码进行了最终的K均值聚类和绘图。首先,创建一个KMeans对象并指定K值为3,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,创建一个新的DataFrame对象df2,其中包含原始数据集的前两列特征以及聚类结果的标签。然后,导入plotnine库,并使用其提供的函数绘制散点图。通过指定x轴为花萼长度,y轴为花萼宽度,颜色根据聚类标签进行分类。最后,使用theme_matplotlib函数设置绘图的主题样式为与matplotlib兼容的样式。- z% q0 d- |4 Y+ }
希望这个逐行解释对你有所帮助!如果你还有其他问题,请随时提问。
0 I  ?0 a2 W4 K) O/ Y; A6 @  U! e5 y
' H# O6 X$ E# l0 p1 c7 m
9 h! ^, B6 W) ?2 v* G+ n8 p, D  h0 X. I( Y. s, k9 ^1 z1 o3 T1 i- h

29.kmeans_clustering.py

902 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 2 点体力  [记录]  [购买]

zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-6-14 16:48 , Processed in 0.428564 second(s), 56 queries .

回顶部