QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2335|回复: 0
打印 上一主题 下一主题

python实现k均值聚类

[复制链接]
字体大小: 正常 放大

1189

主题

4

听众

2934

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-21 10:57 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
K均值聚类(K-means Clustering)是一种常见的聚类算法,它将数据点划分为预先指定数量的聚类。该算法使用迭代的方法,通过最小化样本点与所属聚类中心之间的距离来优化聚类结果。1 ]$ }) H4 D8 O% [6 t
K均值聚类算法的步骤如下:3 n- V# t/ N& O$ G

. l4 `* u: `9 ^) ]. L1 ]9 @1.随机选择K个初始聚类中心点(质心)。K代表要形成的聚类数量。
2 h5 q: Q% C0 {$ w2.将数据点分配给最近的聚类中心,形成K个聚类。) x5 D) J$ s! F- |" {
3.计算每个聚类的新聚类中心,即将当前所属聚类中的样本点的均值作为新的聚类中心。; |" f3 ^3 b  h6 G  M' n
4.重复步骤2和步骤3,直到满足某个停止条件,例如聚类中心不再发生变化或达到最大迭代次数。
. [" ?- D2 p! U: n3 b% {
& G4 B1 Z3 Y/ L+ j% }6 OK均值聚类算法的优点包括简单、易于实现,以及在大规模数据集上的高效性。然而,该算法对于初始聚类中心的选择敏感,并且对于非凸形状的聚类较为困难。
& |; ~% W, u6 w* k! T在Python中,你可以使用scikit-learn库中的KMeans类来实现K均值聚类算法。该类提供了灵活的参数设置,例如聚类数量、初始聚类中心的选择方法等。
: R! s* y7 r" X: j. v* S逐行解释代码的含义:
. e; v1 ^) ~. @- y2 Qimport numpy as np
0 C% m+ m; u( ^/ ~/ t6 mimport pandas as pd
( O; T, e* M# w, s* A( Timport matplotlib.pyplot as plt. I5 L3 P5 H$ L, m) q; ^. W
from sklearn.datasets import load_iris
% ~4 p4 J! X8 O: _/ a5 x4 p6 kfrom sklearn.cluster import KMeans8 s0 w4 _( H7 n8 N
from sklearn.metrics import silhouette_score; h% w! k: `# l( ]8 o, E% B

0 I' n+ {5 L& ~3 P, t这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,matplotlib.pyplot用于绘图,sklearn.datasets中的load_iris用于加载鸢尾花数据集,sklearn.cluster中的KMeans用于K均值聚类,sklearn.metrics中的silhouette_score用于计算轮廓系数。/ e1 R7 S% `* a. F) l' w# G
df = pd.DataFrame(load_iris()['data'], columns=load_iris()['feature_names'])
+ i7 ^) D0 v$ }4 n# y3 r, R0 [+ \$ H1 J8 k( V$ |! }  S
这行代码使用load_iris函数加载鸢尾花数据集,并将数据存储到一个DataFrame对象df中。数据集中的每个样本具有4个特征:花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)和花瓣宽度(petal width)。
- \0 q; _. `) @# }score_list = []: `& @8 l% I" I% F# ^
for i in range(2, 10):, H' ], {8 u4 }7 {4 ?/ B* {) F+ y
    model = KMeans(i)
+ l% o4 d$ y# L) x+ E) C    model.fit(df.iloc[:,:2])) p, X) G9 ?$ S4 V3 F7 z
    score_list.append(silhouette_score(df, model.labels_))
6 b1 c; Y5 V1 @$ Q  E) o
) S1 q. y; }0 Iplt.plot([i for i in range(2, 10)], score_list)
1 N/ P: \/ N# ^9 {7 Q: j
) a$ n: W" t" a. o这段代码计算K取不同值时的轮廓系数,并绘制了K值与轮廓系数之间的曲线图。首先,循环从2到9遍历不同的K值。在每次迭代中,创建一个KMeans对象并指定K值,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,计算当前聚类结果的轮廓系数,并将其添加到score_list列表中。最后,使用matplotlib.pyplot绘制K值与轮廓系数之间的曲线图。
! \! c' ^  D3 d0 ]; \model = KMeans(3)
2 q) t0 i; v1 b0 H3 z* Umodel.fit(df.iloc[:,:2])
3 `$ R9 X$ w8 @+ f8 g. p6 Ndf2 = df.iloc[:,:2].copy()
4 M- {4 w- ?9 zdf2['label'] = model.labels_5 u2 E0 U  ?$ j/ O

  m9 W6 U3 _6 [- p/ Ufrom plotnine import *# {5 i/ D8 I% ^& b, }3 \
4 \5 V$ X8 V! e4 P
(, T. }4 b- g, q3 {
    ggplot(df2,aes('sepal length (cm)', 'sepal width (cm)', color='label'))* I0 D: T1 O! J# \; G- R
    + geom_point()
0 K5 B' F% Z5 \! i7 M6 R    + theme_matplotlib()5 U$ l* F/ ~5 }" `# c
). _; M5 G) b' O$ M- w' ?2 r3 Q9 k
' j3 w: v. n! a
这段代码进行了最终的K均值聚类和绘图。首先,创建一个KMeans对象并指定K值为3,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,创建一个新的DataFrame对象df2,其中包含原始数据集的前两列特征以及聚类结果的标签。然后,导入plotnine库,并使用其提供的函数绘制散点图。通过指定x轴为花萼长度,y轴为花萼宽度,颜色根据聚类标签进行分类。最后,使用theme_matplotlib函数设置绘图的主题样式为与matplotlib兼容的样式。. G  ^* N, x$ I, j6 b( G
希望这个逐行解释对你有所帮助!如果你还有其他问题,请随时提问。
9 d3 H% W+ O5 }6 p- Z4 y
3 C0 ~& P1 X; u& I) `- Z& Z0 D* ?2 F' K6 I2 O& Y! @
5 }1 {  z8 g$ {

29.kmeans_clustering.py

902 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 2 点体力  [记录]  [购买]

zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-6-14 10:31 , Processed in 0.416752 second(s), 55 queries .

回顶部