QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2272|回复: 0
打印 上一主题 下一主题

python实现k均值聚类

[复制链接]
字体大小: 正常 放大

1186

主题

4

听众

2922

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-21 10:57 |只看该作者 |正序浏览
|招呼Ta 关注Ta
K均值聚类(K-means Clustering)是一种常见的聚类算法,它将数据点划分为预先指定数量的聚类。该算法使用迭代的方法,通过最小化样本点与所属聚类中心之间的距离来优化聚类结果。
; q! G% @" P+ H: HK均值聚类算法的步骤如下:' b, G' i( G/ H% j) s; a

% ^* A* [8 ]5 i* K1.随机选择K个初始聚类中心点(质心)。K代表要形成的聚类数量。. U& G: i  W( d7 d8 K  N% w
2.将数据点分配给最近的聚类中心,形成K个聚类。0 H, v3 \. P% V/ K
3.计算每个聚类的新聚类中心,即将当前所属聚类中的样本点的均值作为新的聚类中心。8 t! B; q3 n& ], m1 Q; p
4.重复步骤2和步骤3,直到满足某个停止条件,例如聚类中心不再发生变化或达到最大迭代次数。
  F% z: b, D% b1 h# M, t9 i  b  b" g1 J
K均值聚类算法的优点包括简单、易于实现,以及在大规模数据集上的高效性。然而,该算法对于初始聚类中心的选择敏感,并且对于非凸形状的聚类较为困难。, Q/ e! f" q4 _9 E/ h, a5 w
在Python中,你可以使用scikit-learn库中的KMeans类来实现K均值聚类算法。该类提供了灵活的参数设置,例如聚类数量、初始聚类中心的选择方法等。
# T+ B; P9 ?! Q5 T逐行解释代码的含义:- d/ K1 \: b! d/ G
import numpy as np* W: L3 C) p9 z- R
import pandas as pd
+ F1 X2 c; b; ~import matplotlib.pyplot as plt: W& {: Y3 h2 [5 D" j& b( @+ H) S
from sklearn.datasets import load_iris3 u& N8 d. y. p; z
from sklearn.cluster import KMeans! e$ l2 y& h  f2 K& v7 A: Y7 y2 m9 r1 a
from sklearn.metrics import silhouette_score
/ y5 I( X. d" n8 [) K/ k! M
7 \6 T1 Q% d4 _7 r) w这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,matplotlib.pyplot用于绘图,sklearn.datasets中的load_iris用于加载鸢尾花数据集,sklearn.cluster中的KMeans用于K均值聚类,sklearn.metrics中的silhouette_score用于计算轮廓系数。- r/ a2 k* s% {. ^5 l. c% z. l
df = pd.DataFrame(load_iris()['data'], columns=load_iris()['feature_names']). B0 K, ?+ L1 Q2 I$ p7 \
3 F& g& F6 a/ O: ?! F, N
这行代码使用load_iris函数加载鸢尾花数据集,并将数据存储到一个DataFrame对象df中。数据集中的每个样本具有4个特征:花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)和花瓣宽度(petal width)。$ g" @9 n9 z1 p+ ]$ c
score_list = []
& N6 l! \! n6 B& zfor i in range(2, 10):4 `+ \. o/ b( E! K5 |
    model = KMeans(i)
" `8 B/ w) C" W; b    model.fit(df.iloc[:,:2])
: x, L' b& F' }* J    score_list.append(silhouette_score(df, model.labels_))3 D% I* @: i. @* O
' j: ]: {% O( Q9 X5 [
plt.plot([i for i in range(2, 10)], score_list)
5 b( \& @/ I) ]; ]. l7 z4 Q
8 J) v, _' b* b& E  O3 O# U8 b, ?这段代码计算K取不同值时的轮廓系数,并绘制了K值与轮廓系数之间的曲线图。首先,循环从2到9遍历不同的K值。在每次迭代中,创建一个KMeans对象并指定K值,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,计算当前聚类结果的轮廓系数,并将其添加到score_list列表中。最后,使用matplotlib.pyplot绘制K值与轮廓系数之间的曲线图。! k/ G. h0 |0 H' z  I
model = KMeans(3)
; K+ p. _2 z" N5 fmodel.fit(df.iloc[:,:2])
& ]' Y/ n* r; J9 |df2 = df.iloc[:,:2].copy()
; t1 w- q& I7 j$ Z" g/ tdf2['label'] = model.labels_
; j+ y4 ?9 ?! Z$ e/ @$ B& u1 |7 R2 V( T8 d8 x! H  N0 [- u. @
from plotnine import *1 Q8 W, A6 h% f
. a4 ^: v. q  Q  I) d* d7 r1 c1 E. v
(2 \& |0 z* s/ ?9 A  l4 Z* _+ i
    ggplot(df2,aes('sepal length (cm)', 'sepal width (cm)', color='label'))5 C9 V1 |) u! c
    + geom_point()  I) ?/ q" j- |. M: H2 l! M
    + theme_matplotlib()
7 c- Y# _. e& a& `0 L)2 Y$ R1 @7 U- F7 C

6 e! {8 _/ n9 J% S; z2 R) Y) r! v这段代码进行了最终的K均值聚类和绘图。首先,创建一个KMeans对象并指定K值为3,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,创建一个新的DataFrame对象df2,其中包含原始数据集的前两列特征以及聚类结果的标签。然后,导入plotnine库,并使用其提供的函数绘制散点图。通过指定x轴为花萼长度,y轴为花萼宽度,颜色根据聚类标签进行分类。最后,使用theme_matplotlib函数设置绘图的主题样式为与matplotlib兼容的样式。  [! w* K' `- G$ f
希望这个逐行解释对你有所帮助!如果你还有其他问题,请随时提问。
% Y7 e2 I  `" o  D1 i7 ^6 Q1 D! D5 u+ V

5 V! H" o1 h8 k" c, }- W. b# ~9 y9 T5 L

29.kmeans_clustering.py

902 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 2 点体力  [记录]  [购买]

zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-4-13 07:46 , Processed in 0.366483 second(s), 55 queries .

回顶部