QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1546|回复: 0
打印 上一主题 下一主题

python实现k均值聚类

[复制链接]
字体大小: 正常 放大

1171

主题

4

听众

2781

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-21 10:57 |只看该作者 |正序浏览
|招呼Ta 关注Ta
K均值聚类(K-means Clustering)是一种常见的聚类算法,它将数据点划分为预先指定数量的聚类。该算法使用迭代的方法,通过最小化样本点与所属聚类中心之间的距离来优化聚类结果。( h+ O0 D! b7 X
K均值聚类算法的步骤如下:# S% u6 Q! w' r; d7 {: v
8 Q9 [9 r& ?2 w! G" ?
1.随机选择K个初始聚类中心点(质心)。K代表要形成的聚类数量。- l  `" b; x. M& n
2.将数据点分配给最近的聚类中心,形成K个聚类。6 O  f, A5 V: X9 N4 l- W* |
3.计算每个聚类的新聚类中心,即将当前所属聚类中的样本点的均值作为新的聚类中心。
' E# G5 I6 x; o4.重复步骤2和步骤3,直到满足某个停止条件,例如聚类中心不再发生变化或达到最大迭代次数。0 I# r1 z" g9 l

6 z/ _( H( g% m1 j' `- X, lK均值聚类算法的优点包括简单、易于实现,以及在大规模数据集上的高效性。然而,该算法对于初始聚类中心的选择敏感,并且对于非凸形状的聚类较为困难。
+ A0 X; [. c$ r) y" N) Y' z在Python中,你可以使用scikit-learn库中的KMeans类来实现K均值聚类算法。该类提供了灵活的参数设置,例如聚类数量、初始聚类中心的选择方法等。
4 q5 I2 L' e# r6 x2 t% Z1 j逐行解释代码的含义:
7 E" u1 |: O" }3 eimport numpy as np1 d1 P0 a' W8 \6 E
import pandas as pd
) K, H1 @) U$ ximport matplotlib.pyplot as plt- I! d' |) J- b9 T$ \; c, {
from sklearn.datasets import load_iris
) ^9 Y: R/ |4 Z2 o+ |  F( U5 mfrom sklearn.cluster import KMeans, H+ J. w' [( ^- C
from sklearn.metrics import silhouette_score
; D+ }9 A4 Y0 h- Z- L! [/ f/ r3 k5 W7 t; _/ ^, {) Z' j
这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,matplotlib.pyplot用于绘图,sklearn.datasets中的load_iris用于加载鸢尾花数据集,sklearn.cluster中的KMeans用于K均值聚类,sklearn.metrics中的silhouette_score用于计算轮廓系数。0 |+ W9 a( F5 c; C2 ~/ w  a" z
df = pd.DataFrame(load_iris()['data'], columns=load_iris()['feature_names'])' x# P( M2 `: t; l
" Y  u5 L. R0 a7 J4 v" a% m8 v
这行代码使用load_iris函数加载鸢尾花数据集,并将数据存储到一个DataFrame对象df中。数据集中的每个样本具有4个特征:花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)和花瓣宽度(petal width)。
* ~  }) g: ^5 X" `" a2 p- s4 @6 Cscore_list = []
+ U$ P8 }$ j- I1 m% |for i in range(2, 10):
  ]9 ]) l$ D2 i2 \  y$ O' V% X# a) [% @' k    model = KMeans(i)% ~* B- T( K% @( c- I9 Y& ]
    model.fit(df.iloc[:,:2])3 H0 r& s7 M8 K  {
    score_list.append(silhouette_score(df, model.labels_))
5 j8 s* B, w$ i3 O+ ~
0 n/ N% L- X% A& U$ [- ^- T6 Bplt.plot([i for i in range(2, 10)], score_list)
: @# j8 |7 d! ]
6 w8 r7 X- I- X6 B+ w这段代码计算K取不同值时的轮廓系数,并绘制了K值与轮廓系数之间的曲线图。首先,循环从2到9遍历不同的K值。在每次迭代中,创建一个KMeans对象并指定K值,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,计算当前聚类结果的轮廓系数,并将其添加到score_list列表中。最后,使用matplotlib.pyplot绘制K值与轮廓系数之间的曲线图。
8 x+ R8 F: {5 l7 s% Mmodel = KMeans(3)6 b$ g" T  K% H3 X/ p
model.fit(df.iloc[:,:2]), t4 c+ a* Z1 n) z+ A5 Y) z8 o
df2 = df.iloc[:,:2].copy()  v% R' p$ A: O' @' b8 |
df2['label'] = model.labels_/ f: i- N% k* G6 _' o
: U; P/ |3 P9 J8 ]4 [% n
from plotnine import *$ i' v4 J; y- a, V8 L, \

% z6 d6 ~. u/ `" j+ w( z(
7 b9 z5 M, J' K1 W    ggplot(df2,aes('sepal length (cm)', 'sepal width (cm)', color='label'))+ G$ t# e' M5 }
    + geom_point()
- l$ I% _  q  k    + theme_matplotlib()
9 Y8 k8 E, w, W6 H)
0 k; @0 W/ `6 _% d, W; ?' K
  b; |: s  p9 P. ~: q/ G这段代码进行了最终的K均值聚类和绘图。首先,创建一个KMeans对象并指定K值为3,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,创建一个新的DataFrame对象df2,其中包含原始数据集的前两列特征以及聚类结果的标签。然后,导入plotnine库,并使用其提供的函数绘制散点图。通过指定x轴为花萼长度,y轴为花萼宽度,颜色根据聚类标签进行分类。最后,使用theme_matplotlib函数设置绘图的主题样式为与matplotlib兼容的样式。9 A# O0 D  B( F4 R# O6 h) Y9 S
希望这个逐行解释对你有所帮助!如果你还有其他问题,请随时提问。
1 V8 R! U3 U& f* Q$ o
! z1 [! }- ~# e' A7 w! E; e+ G8 Q  |+ `0 p5 e/ P

: e( t, [1 r/ X2 y2 m, i, g; x4 h9 `

29.kmeans_clustering.py

902 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 2 点体力  [记录]  [购买]

zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2025-6-27 17:38 , Processed in 0.338755 second(s), 55 queries .

回顶部