QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2268|回复: 0
打印 上一主题 下一主题

python实现k均值聚类

[复制链接]
字体大小: 正常 放大

1186

主题

4

听众

2922

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-21 10:57 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
K均值聚类(K-means Clustering)是一种常见的聚类算法,它将数据点划分为预先指定数量的聚类。该算法使用迭代的方法,通过最小化样本点与所属聚类中心之间的距离来优化聚类结果。4 |% w( I* V+ d5 b0 w
K均值聚类算法的步骤如下:
+ z4 e2 Q4 i+ x) _! F" B8 l. H& E( M  m" i
1.随机选择K个初始聚类中心点(质心)。K代表要形成的聚类数量。# A6 s7 `6 b+ {- z  B8 c
2.将数据点分配给最近的聚类中心,形成K个聚类。+ @0 Z' U* [& m
3.计算每个聚类的新聚类中心,即将当前所属聚类中的样本点的均值作为新的聚类中心。
6 E. q. h  ?& d& s$ E* t4.重复步骤2和步骤3,直到满足某个停止条件,例如聚类中心不再发生变化或达到最大迭代次数。
  O$ V* k4 C( i5 G1 ]1 }5 ?7 o* j5 I/ X+ w) D. Z( O) J
K均值聚类算法的优点包括简单、易于实现,以及在大规模数据集上的高效性。然而,该算法对于初始聚类中心的选择敏感,并且对于非凸形状的聚类较为困难。
+ l" K; K9 p. L. d5 E在Python中,你可以使用scikit-learn库中的KMeans类来实现K均值聚类算法。该类提供了灵活的参数设置,例如聚类数量、初始聚类中心的选择方法等。' v$ F7 q2 Z- `2 V
逐行解释代码的含义:
3 q! @6 D, _5 K! {* c" K( K  nimport numpy as np1 i: w, k6 v: [) {
import pandas as pd, F# b% z" g8 L! H9 n
import matplotlib.pyplot as plt% R& O& W, M$ D2 G" n
from sklearn.datasets import load_iris3 N1 H& N; }. \& X
from sklearn.cluster import KMeans1 D: U8 ?! W( b: v" A
from sklearn.metrics import silhouette_score- m0 c+ k. C- ]- I  U; A

+ t4 L3 w; w/ n' ]# S4 s这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,matplotlib.pyplot用于绘图,sklearn.datasets中的load_iris用于加载鸢尾花数据集,sklearn.cluster中的KMeans用于K均值聚类,sklearn.metrics中的silhouette_score用于计算轮廓系数。7 \0 d: g- {$ c0 h; n% X* e: ]( v1 B1 g
df = pd.DataFrame(load_iris()['data'], columns=load_iris()['feature_names'])( G  Y8 n) T9 k# C
. c" b9 H3 d2 h
这行代码使用load_iris函数加载鸢尾花数据集,并将数据存储到一个DataFrame对象df中。数据集中的每个样本具有4个特征:花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)和花瓣宽度(petal width)。3 Z4 I: @3 ~  O/ P- B
score_list = []
2 P2 k5 g2 C3 h6 v6 Ufor i in range(2, 10):2 z( a+ D  r$ X; Q
    model = KMeans(i)
# T4 E* ]8 a; V2 }; \5 o- d' i    model.fit(df.iloc[:,:2])
# K  y5 o" A" K' O    score_list.append(silhouette_score(df, model.labels_))
2 u) w, ^7 t9 M1 |/ ]3 i
& a& B1 y- }+ T: c+ k4 Cplt.plot([i for i in range(2, 10)], score_list)$ O' {, P: A. {. U4 y( V6 G

  s# e& \% ~" Q7 D6 y- u这段代码计算K取不同值时的轮廓系数,并绘制了K值与轮廓系数之间的曲线图。首先,循环从2到9遍历不同的K值。在每次迭代中,创建一个KMeans对象并指定K值,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,计算当前聚类结果的轮廓系数,并将其添加到score_list列表中。最后,使用matplotlib.pyplot绘制K值与轮廓系数之间的曲线图。" Z7 R7 O/ |% g
model = KMeans(3). r/ Y& S/ T: E* P
model.fit(df.iloc[:,:2])
. i" u' G: O3 r) |$ \, C; B( Ddf2 = df.iloc[:,:2].copy()
! i+ S6 W. \- fdf2['label'] = model.labels_# b" E& j" ~6 {; X& s/ x7 }: T" R

' r7 F) X. s3 F) ]2 x: {6 R/ nfrom plotnine import *
% [3 I: T. w2 z" m+ {% E  e
) m$ ]" ~1 ~& o% r% Y- k3 _5 _2 f/ B(
' X3 n7 v0 o5 \' v0 {    ggplot(df2,aes('sepal length (cm)', 'sepal width (cm)', color='label'))3 C' F/ h' [- w: {' x  W, g
    + geom_point()
' z) H; J: ~3 i: B/ C& [    + theme_matplotlib()8 }* l: V# a' H4 ^
)4 b0 C7 L3 B* D, Y% H; }; Y$ U
+ @0 y4 n1 e7 e# P! i0 `/ r
这段代码进行了最终的K均值聚类和绘图。首先,创建一个KMeans对象并指定K值为3,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,创建一个新的DataFrame对象df2,其中包含原始数据集的前两列特征以及聚类结果的标签。然后,导入plotnine库,并使用其提供的函数绘制散点图。通过指定x轴为花萼长度,y轴为花萼宽度,颜色根据聚类标签进行分类。最后,使用theme_matplotlib函数设置绘图的主题样式为与matplotlib兼容的样式。
/ M/ B3 \  L! u* b希望这个逐行解释对你有所帮助!如果你还有其他问题,请随时提问。2 e) q2 V" Q; i7 i6 U1 s
) ?1 {; G8 M1 `+ W3 H

, n! D8 _8 u( A: z6 |9 m& R  ~) R/ q7 Q

29.kmeans_clustering.py

902 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 2 点体力  [记录]  [购买]

zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-4-10 15:29 , Processed in 0.747400 second(s), 55 queries .

回顶部