QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1739|回复: 0
打印 上一主题 下一主题

python实现k均值聚类

[复制链接]
字体大小: 正常 放大

1175

主题

4

听众

2842

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-21 10:57 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
K均值聚类(K-means Clustering)是一种常见的聚类算法,它将数据点划分为预先指定数量的聚类。该算法使用迭代的方法,通过最小化样本点与所属聚类中心之间的距离来优化聚类结果。7 @( Z2 G) n; C# |0 y
K均值聚类算法的步骤如下:
2 u1 v6 }6 T& F1 Z$ E9 O% N: v2 y' m* ?1 \2 @
1.随机选择K个初始聚类中心点(质心)。K代表要形成的聚类数量。0 h" q# N/ _! Y; `7 p
2.将数据点分配给最近的聚类中心,形成K个聚类。. H9 T, [7 \% q- |
3.计算每个聚类的新聚类中心,即将当前所属聚类中的样本点的均值作为新的聚类中心。
, g: c$ {/ U% U7 M: F! l  `4.重复步骤2和步骤3,直到满足某个停止条件,例如聚类中心不再发生变化或达到最大迭代次数。
& f0 w) S( {' W# R5 F
; Z  ]) b* S5 }$ l. KK均值聚类算法的优点包括简单、易于实现,以及在大规模数据集上的高效性。然而,该算法对于初始聚类中心的选择敏感,并且对于非凸形状的聚类较为困难。7 l2 V  Y) O' b6 }+ B4 E( M& \
在Python中,你可以使用scikit-learn库中的KMeans类来实现K均值聚类算法。该类提供了灵活的参数设置,例如聚类数量、初始聚类中心的选择方法等。. A+ e/ n, S& K! H9 w. ]
逐行解释代码的含义:
% R, M* `* ~9 V: g1 Fimport numpy as np* K0 f- o0 L  `+ K7 S! a- Y
import pandas as pd
2 x! B# H; T) @import matplotlib.pyplot as plt# ^" a5 b0 r" O0 {+ D8 n3 W
from sklearn.datasets import load_iris
' b: H# b& n1 ~( E! H% }from sklearn.cluster import KMeans
) ^* i+ [! a- b4 Cfrom sklearn.metrics import silhouette_score5 j3 i! Y& B7 ?) ?8 T

$ M/ H  b- w3 Z# b  f这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,matplotlib.pyplot用于绘图,sklearn.datasets中的load_iris用于加载鸢尾花数据集,sklearn.cluster中的KMeans用于K均值聚类,sklearn.metrics中的silhouette_score用于计算轮廓系数。
/ y5 K5 k! J4 D) }df = pd.DataFrame(load_iris()['data'], columns=load_iris()['feature_names'])
0 q& {  d, L7 u1 }, X
- l& E8 R: ~' a1 n这行代码使用load_iris函数加载鸢尾花数据集,并将数据存储到一个DataFrame对象df中。数据集中的每个样本具有4个特征:花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)和花瓣宽度(petal width)。3 M$ z8 J) j2 m. e
score_list = []' a  w" \) ^- U. v6 e/ C
for i in range(2, 10):
8 a$ a  z/ A4 i$ o4 i4 k$ g3 A    model = KMeans(i)3 m( I/ O- L2 l1 e9 G$ x1 W
    model.fit(df.iloc[:,:2])  p, {2 Z3 j' a
    score_list.append(silhouette_score(df, model.labels_))
- f7 d3 P& e$ W' @% K& n( b" I
plt.plot([i for i in range(2, 10)], score_list)
* g4 s- j) D" v# U  e8 O
# L/ r" {9 g* t6 n" U! D) Q: U这段代码计算K取不同值时的轮廓系数,并绘制了K值与轮廓系数之间的曲线图。首先,循环从2到9遍历不同的K值。在每次迭代中,创建一个KMeans对象并指定K值,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,计算当前聚类结果的轮廓系数,并将其添加到score_list列表中。最后,使用matplotlib.pyplot绘制K值与轮廓系数之间的曲线图。: D, s0 p( |# v
model = KMeans(3)
( `3 R. Y7 K6 U2 Y1 U# S3 n% amodel.fit(df.iloc[:,:2]): O" M- ]8 ?4 K) T% c, p$ [( V
df2 = df.iloc[:,:2].copy()
) n2 R1 D: p' ?6 E3 idf2['label'] = model.labels_: a/ Q1 Q2 C0 y$ c9 z
1 r1 y' O- u8 [/ L
from plotnine import *4 O; x. C2 H/ ?! g# s$ u1 F

# F3 v* E/ F5 Z- t, U6 G(
8 Z' Q# P  j7 z, x) G; Z- }    ggplot(df2,aes('sepal length (cm)', 'sepal width (cm)', color='label'))+ ~+ |% y0 k* {+ b4 U' `& b
    + geom_point()' v, o1 l/ }& X
    + theme_matplotlib(). ?; s- F) \4 ]
)$ d4 o' P$ I. d0 l4 M

) i) R( {; w  k这段代码进行了最终的K均值聚类和绘图。首先,创建一个KMeans对象并指定K值为3,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,创建一个新的DataFrame对象df2,其中包含原始数据集的前两列特征以及聚类结果的标签。然后,导入plotnine库,并使用其提供的函数绘制散点图。通过指定x轴为花萼长度,y轴为花萼宽度,颜色根据聚类标签进行分类。最后,使用theme_matplotlib函数设置绘图的主题样式为与matplotlib兼容的样式。8 k# N0 }* [' f  E0 _
希望这个逐行解释对你有所帮助!如果你还有其他问题,请随时提问。0 u5 i2 B. c) T0 {

% j5 W8 K4 A: M% A
6 c2 b+ D: k/ y. W
, W" T, {# z; o' @7 ~( r, ^4 Y

29.kmeans_clustering.py

902 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 2 点体力  [记录]  [购买]

zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2025-7-28 06:09 , Processed in 0.769084 second(s), 54 queries .

回顶部