QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2339|回复: 0
打印 上一主题 下一主题

python实现k均值聚类

[复制链接]
字体大小: 正常 放大

1189

主题

4

听众

2934

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-21 10:57 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
K均值聚类(K-means Clustering)是一种常见的聚类算法,它将数据点划分为预先指定数量的聚类。该算法使用迭代的方法,通过最小化样本点与所属聚类中心之间的距离来优化聚类结果。
' x3 p! o% g- W3 K; T; P, `K均值聚类算法的步骤如下:
, {% I1 J# `4 t/ u% `4 o
% e/ z0 ^1 `, ?% n! R1.随机选择K个初始聚类中心点(质心)。K代表要形成的聚类数量。
4 i* a' `' H) A5 M2.将数据点分配给最近的聚类中心,形成K个聚类。+ P% Y) b6 D+ X# k
3.计算每个聚类的新聚类中心,即将当前所属聚类中的样本点的均值作为新的聚类中心。" ^. I( ~7 p; X$ s
4.重复步骤2和步骤3,直到满足某个停止条件,例如聚类中心不再发生变化或达到最大迭代次数。
' b; K; e8 ]2 U8 b8 ^+ ^: I! N! }# |
K均值聚类算法的优点包括简单、易于实现,以及在大规模数据集上的高效性。然而,该算法对于初始聚类中心的选择敏感,并且对于非凸形状的聚类较为困难。
6 f9 V* e/ c+ O* r6 m4 T1 W1 x. z在Python中,你可以使用scikit-learn库中的KMeans类来实现K均值聚类算法。该类提供了灵活的参数设置,例如聚类数量、初始聚类中心的选择方法等。, J6 L9 K! M& \
逐行解释代码的含义:
1 T  U- j2 g' }1 ~import numpy as np) y" z5 R- x2 d
import pandas as pd$ L# T9 ]# }9 Q! p2 O9 k
import matplotlib.pyplot as plt7 v9 @" A' X, M
from sklearn.datasets import load_iris
$ B! ~% f; D0 e/ `( a# X+ N7 Lfrom sklearn.cluster import KMeans
/ m3 B. O$ s  ^1 C- Tfrom sklearn.metrics import silhouette_score2 E# a' Y+ ~0 x6 I" O# A
, k8 J7 X" s; j, F" c  F. d, Y
这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,matplotlib.pyplot用于绘图,sklearn.datasets中的load_iris用于加载鸢尾花数据集,sklearn.cluster中的KMeans用于K均值聚类,sklearn.metrics中的silhouette_score用于计算轮廓系数。9 N8 Y- X9 _9 Z+ P1 \, w% s2 E
df = pd.DataFrame(load_iris()['data'], columns=load_iris()['feature_names'])
9 w  j' N# B7 N$ E
) q- Z8 j  G  G2 J; }这行代码使用load_iris函数加载鸢尾花数据集,并将数据存储到一个DataFrame对象df中。数据集中的每个样本具有4个特征:花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)和花瓣宽度(petal width)。
, P: J" @( b* ]( B% Gscore_list = []
, \3 L0 e5 _2 b0 }for i in range(2, 10):
1 O! d& w3 A% `- S3 M& h( G$ h    model = KMeans(i)" O. z) A# S/ D/ x& k; N7 K/ A
    model.fit(df.iloc[:,:2])5 V' n" H' t( E: [! [
    score_list.append(silhouette_score(df, model.labels_))
. m; b0 d, X; c$ l6 y5 u8 r! }; |' X8 d
plt.plot([i for i in range(2, 10)], score_list)
0 W4 |" G# A) ]9 ^$ R/ y, M
8 [# D4 ]6 [6 V% b- s这段代码计算K取不同值时的轮廓系数,并绘制了K值与轮廓系数之间的曲线图。首先,循环从2到9遍历不同的K值。在每次迭代中,创建一个KMeans对象并指定K值,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,计算当前聚类结果的轮廓系数,并将其添加到score_list列表中。最后,使用matplotlib.pyplot绘制K值与轮廓系数之间的曲线图。7 f5 u7 u7 c" F2 n5 E1 K
model = KMeans(3)
3 l# f, n6 z7 _model.fit(df.iloc[:,:2])
: M" s3 N$ ?3 y4 r2 p" sdf2 = df.iloc[:,:2].copy()0 T) S6 b- a" S2 @% s0 s
df2['label'] = model.labels_
4 E! B. F0 p) N6 p2 ?# X2 Z& t0 F! e0 M  {1 o1 F
from plotnine import *
3 K) M/ J, a! G3 r3 s8 E& H" E
1 Q& Y: p: ]) V" t4 H; D3 a2 n( ^(
3 R, R) B" \# W  N. W$ R    ggplot(df2,aes('sepal length (cm)', 'sepal width (cm)', color='label'))) D1 ^+ T% y7 M0 V, C. T3 j
    + geom_point()
: P! A0 Q; X. J' Y; H! @    + theme_matplotlib()
" N8 L& P% q9 o" x9 t)
0 V( F. W  g% X0 X0 K" V' E4 k7 c0 Q# q" ~* m6 m
这段代码进行了最终的K均值聚类和绘图。首先,创建一个KMeans对象并指定K值为3,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,创建一个新的DataFrame对象df2,其中包含原始数据集的前两列特征以及聚类结果的标签。然后,导入plotnine库,并使用其提供的函数绘制散点图。通过指定x轴为花萼长度,y轴为花萼宽度,颜色根据聚类标签进行分类。最后,使用theme_matplotlib函数设置绘图的主题样式为与matplotlib兼容的样式。
5 S" n/ M- z0 s希望这个逐行解释对你有所帮助!如果你还有其他问题,请随时提问。& r8 m; U# @3 N, _6 D

* V% j( g. x, `( A$ o
5 f, L5 E  e% J9 [# n$ S2 R! g9 P

29.kmeans_clustering.py

902 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 2 点体力  [记录]  [购买]

zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-6-14 22:58 , Processed in 0.384928 second(s), 55 queries .

回顶部