QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2312|回复: 0
打印 上一主题 下一主题

python实现k均值聚类

[复制链接]
字体大小: 正常 放大

1188

主题

4

听众

2931

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-21 10:57 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
K均值聚类(K-means Clustering)是一种常见的聚类算法,它将数据点划分为预先指定数量的聚类。该算法使用迭代的方法,通过最小化样本点与所属聚类中心之间的距离来优化聚类结果。
- k* E" a5 d+ l$ S; W3 z2 A0 ]K均值聚类算法的步骤如下:
  [+ h$ a# g; v" p. ^- G- y* E/ l/ }: k0 d/ A: h
1.随机选择K个初始聚类中心点(质心)。K代表要形成的聚类数量。
. j( l. V9 m4 j" R2.将数据点分配给最近的聚类中心,形成K个聚类。4 w; M2 P9 R# Z! |/ L% v
3.计算每个聚类的新聚类中心,即将当前所属聚类中的样本点的均值作为新的聚类中心。
* R$ B) D8 S5 |& N/ Y4.重复步骤2和步骤3,直到满足某个停止条件,例如聚类中心不再发生变化或达到最大迭代次数。
" f  K8 Z+ ]4 W3 Z" n. a4 W6 U: `; w: p  ~' O4 Q- T
K均值聚类算法的优点包括简单、易于实现,以及在大规模数据集上的高效性。然而,该算法对于初始聚类中心的选择敏感,并且对于非凸形状的聚类较为困难。  |# f1 E  @+ @8 n% v' x) w7 D
在Python中,你可以使用scikit-learn库中的KMeans类来实现K均值聚类算法。该类提供了灵活的参数设置,例如聚类数量、初始聚类中心的选择方法等。/ Q3 Z# Y6 r+ t% }# e, M( s
逐行解释代码的含义:
; `/ B/ F0 W3 i4 h+ C4 u6 Himport numpy as np
* e( K6 e  N+ }( {2 m$ Iimport pandas as pd
- d+ Q1 c3 G, G2 J0 G6 ^$ C* W2 G# Zimport matplotlib.pyplot as plt
3 s4 ^/ m& [& ]from sklearn.datasets import load_iris
& c5 [2 ~' Z( c$ g0 e; \from sklearn.cluster import KMeans
1 f, I: z) b9 g0 H+ q. A9 Sfrom sklearn.metrics import silhouette_score
# Q/ A$ ^# c; L' ]& U2 v4 A% n# G* {; K5 g$ O
这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,matplotlib.pyplot用于绘图,sklearn.datasets中的load_iris用于加载鸢尾花数据集,sklearn.cluster中的KMeans用于K均值聚类,sklearn.metrics中的silhouette_score用于计算轮廓系数。+ s, f5 v% i" A4 w. D4 x9 D6 A
df = pd.DataFrame(load_iris()['data'], columns=load_iris()['feature_names'])
" H5 X! ]& `7 f& D& ~* {! k$ n" R3 O3 a, }6 S
这行代码使用load_iris函数加载鸢尾花数据集,并将数据存储到一个DataFrame对象df中。数据集中的每个样本具有4个特征:花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)和花瓣宽度(petal width)。
) w# b' _9 b; g% u; H& P; oscore_list = []1 @6 @. `8 U9 V5 T6 P
for i in range(2, 10):
. z6 z8 U3 H# ~# ]4 ?2 w! f& D( z    model = KMeans(i)
! E/ {1 m+ s7 d0 @) w    model.fit(df.iloc[:,:2])
; {2 N! w- E8 }& e8 Q8 `    score_list.append(silhouette_score(df, model.labels_))
* r! x4 n, T9 @% E( ^. p+ q+ X5 p$ R% Z! p- h0 E" J% l
plt.plot([i for i in range(2, 10)], score_list)% o5 I# L- R, N; E: S) D4 {8 @* @
3 W' u9 _$ n& j  z( v% p, A
这段代码计算K取不同值时的轮廓系数,并绘制了K值与轮廓系数之间的曲线图。首先,循环从2到9遍历不同的K值。在每次迭代中,创建一个KMeans对象并指定K值,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,计算当前聚类结果的轮廓系数,并将其添加到score_list列表中。最后,使用matplotlib.pyplot绘制K值与轮廓系数之间的曲线图。
: j1 Q2 Z, y. q( k, q7 O6 ^' |! f% smodel = KMeans(3)
- _* d( M( D8 E# m1 [2 pmodel.fit(df.iloc[:,:2])
6 Q2 h" O+ K; `  }' Vdf2 = df.iloc[:,:2].copy(). i# e+ `8 a$ c+ I- V9 b& [
df2['label'] = model.labels_
3 p' L" D/ G$ j( e& {% w9 a+ n3 g2 F
from plotnine import *1 i0 P$ w$ I$ V  D- V

* g1 ~# [4 l) z, v- v(& F! l5 Z# g. g; `
    ggplot(df2,aes('sepal length (cm)', 'sepal width (cm)', color='label')): Q2 W' w( n; x' e, |
    + geom_point()/ B1 X7 m- q- O$ B
    + theme_matplotlib()
# B* t' i% g( J- W! k)
& K$ C1 w' M2 C/ `6 [! _) i" P
9 _: u7 ]. w& J1 F这段代码进行了最终的K均值聚类和绘图。首先,创建一个KMeans对象并指定K值为3,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,创建一个新的DataFrame对象df2,其中包含原始数据集的前两列特征以及聚类结果的标签。然后,导入plotnine库,并使用其提供的函数绘制散点图。通过指定x轴为花萼长度,y轴为花萼宽度,颜色根据聚类标签进行分类。最后,使用theme_matplotlib函数设置绘图的主题样式为与matplotlib兼容的样式。6 |8 r0 L* Y* R/ S
希望这个逐行解释对你有所帮助!如果你还有其他问题,请随时提问。
7 ?. y; p. v" g) U7 ^1 `" n% j, J; C5 d% {

8 h1 y0 q; Q$ P2 f" @7 t3 @( g9 y1 a  L

29.kmeans_clustering.py

902 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 2 点体力  [记录]  [购买]

zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-5-26 00:10 , Processed in 0.405338 second(s), 55 queries .

回顶部