QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2281|回复: 0
打印 上一主题 下一主题

python实现k均值聚类

[复制链接]
字体大小: 正常 放大

1186

主题

4

听众

2923

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-21 10:57 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
K均值聚类(K-means Clustering)是一种常见的聚类算法,它将数据点划分为预先指定数量的聚类。该算法使用迭代的方法,通过最小化样本点与所属聚类中心之间的距离来优化聚类结果。! y* a4 F" o6 X& m
K均值聚类算法的步骤如下:) Z: Z9 I' E! @4 E5 x

* I: j1 I  H2 [$ c! J8 {1.随机选择K个初始聚类中心点(质心)。K代表要形成的聚类数量。
" i# K1 V* _4 O2.将数据点分配给最近的聚类中心,形成K个聚类。0 Q+ q2 p5 Z" l' D+ d0 u
3.计算每个聚类的新聚类中心,即将当前所属聚类中的样本点的均值作为新的聚类中心。
/ ~# Q  R: z- C3 d9 {4.重复步骤2和步骤3,直到满足某个停止条件,例如聚类中心不再发生变化或达到最大迭代次数。
5 `) J, j; n5 D' E
# F1 u" i9 C0 n" hK均值聚类算法的优点包括简单、易于实现,以及在大规模数据集上的高效性。然而,该算法对于初始聚类中心的选择敏感,并且对于非凸形状的聚类较为困难。
2 X2 h5 P7 B* J* E* b( O3 L) o在Python中,你可以使用scikit-learn库中的KMeans类来实现K均值聚类算法。该类提供了灵活的参数设置,例如聚类数量、初始聚类中心的选择方法等。9 q! w/ H+ `) G/ f; ?9 ^$ b) ^3 i
逐行解释代码的含义:
; M0 o6 N: [; A2 }6 X$ simport numpy as np
5 I0 n3 Z! \! Simport pandas as pd3 `% F: l4 b4 @% O$ C2 J) I
import matplotlib.pyplot as plt
; {: Z$ {  C9 ^( A; e0 ^9 n, yfrom sklearn.datasets import load_iris& g3 q/ V/ [- `5 J+ |* R" N9 x
from sklearn.cluster import KMeans
/ n' C. G5 g; hfrom sklearn.metrics import silhouette_score. J6 m/ Z5 R6 {& M4 y
$ X7 J9 g( b1 E, R  a
这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,matplotlib.pyplot用于绘图,sklearn.datasets中的load_iris用于加载鸢尾花数据集,sklearn.cluster中的KMeans用于K均值聚类,sklearn.metrics中的silhouette_score用于计算轮廓系数。
* b. p5 j5 k# b3 u6 Edf = pd.DataFrame(load_iris()['data'], columns=load_iris()['feature_names'])1 D7 P8 }3 W# K5 X# P) B1 x
' g) K8 A' V: M" h
这行代码使用load_iris函数加载鸢尾花数据集,并将数据存储到一个DataFrame对象df中。数据集中的每个样本具有4个特征:花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)和花瓣宽度(petal width)。
7 G1 \' |7 E0 T+ U6 ~score_list = []
' v5 B, B+ \9 i, S1 y- ?% Lfor i in range(2, 10):
+ \, ~# W: _$ y7 k    model = KMeans(i)
2 M  y' |3 h- U$ k0 m6 F    model.fit(df.iloc[:,:2])  L1 m6 e5 W$ c
    score_list.append(silhouette_score(df, model.labels_))
$ ?9 {# C( p+ G. A/ q* s
% h3 v4 B2 }9 E8 `" o4 [7 ?% Hplt.plot([i for i in range(2, 10)], score_list). W$ M* H% y. \2 q: ^- d
; U2 `. z* k2 k9 e+ I( Q; ?) E
这段代码计算K取不同值时的轮廓系数,并绘制了K值与轮廓系数之间的曲线图。首先,循环从2到9遍历不同的K值。在每次迭代中,创建一个KMeans对象并指定K值,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,计算当前聚类结果的轮廓系数,并将其添加到score_list列表中。最后,使用matplotlib.pyplot绘制K值与轮廓系数之间的曲线图。
& q' N0 g9 P3 W) qmodel = KMeans(3)- h4 Q# S1 W% {; @/ o
model.fit(df.iloc[:,:2])
( A( S# W5 N/ @$ k4 _! l- c& g; ?df2 = df.iloc[:,:2].copy()3 `6 C$ K, n/ v# T* p8 Q, C% r% Z
df2['label'] = model.labels_
) ^% F. e% {9 |/ L: u% F8 y
* [; x+ Z2 ~* c7 Ufrom plotnine import *
) M  m% B3 ]8 [* {- l5 y: a
$ P$ [; T. f5 m9 E9 c(. R# W4 q5 f! c4 n: F
    ggplot(df2,aes('sepal length (cm)', 'sepal width (cm)', color='label'))
8 _8 j% w& f$ x' ~" [! |    + geom_point()- |( @6 X" G; V7 y% c4 @& [
    + theme_matplotlib()
$ e" }7 _7 k( g# ]" H) ~- I) |)
, `- V5 W: V+ H% ?6 Q) t2 f( D
6 C# q3 D& P( Y) A这段代码进行了最终的K均值聚类和绘图。首先,创建一个KMeans对象并指定K值为3,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,创建一个新的DataFrame对象df2,其中包含原始数据集的前两列特征以及聚类结果的标签。然后,导入plotnine库,并使用其提供的函数绘制散点图。通过指定x轴为花萼长度,y轴为花萼宽度,颜色根据聚类标签进行分类。最后,使用theme_matplotlib函数设置绘图的主题样式为与matplotlib兼容的样式。: Q/ f: M, R" n: c4 B3 V3 W2 J
希望这个逐行解释对你有所帮助!如果你还有其他问题,请随时提问。  p7 p3 d! [! V
/ u9 h9 G* L  o7 D. G

6 @: @* l0 N0 j7 B" d/ b# G8 D9 {
7 T+ U2 N# j( C- V7 h% Y" H7 z" D3 \; T

29.kmeans_clustering.py

902 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 2 点体力  [记录]  [购买]

zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-4-22 11:14 , Processed in 1.406724 second(s), 55 queries .

回顶部