QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1717|回复: 0
打印 上一主题 下一主题

python实现k均值聚类

[复制链接]
字体大小: 正常 放大

1175

主题

4

听众

2838

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-21 10:57 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
K均值聚类(K-means Clustering)是一种常见的聚类算法,它将数据点划分为预先指定数量的聚类。该算法使用迭代的方法,通过最小化样本点与所属聚类中心之间的距离来优化聚类结果。
0 F* b3 I* {' q; ?, YK均值聚类算法的步骤如下:3 c* m$ B* O- h7 q3 |
' V' }  v, F, Q1 a' `
1.随机选择K个初始聚类中心点(质心)。K代表要形成的聚类数量。
3 W" J9 t, g  A- ~2.将数据点分配给最近的聚类中心,形成K个聚类。
5 F8 W' }$ ?$ }( \( T3.计算每个聚类的新聚类中心,即将当前所属聚类中的样本点的均值作为新的聚类中心。
* {* F- A+ K& Y) T4.重复步骤2和步骤3,直到满足某个停止条件,例如聚类中心不再发生变化或达到最大迭代次数。
2 Q; \8 `7 q2 N/ Q, p2 I7 [+ y+ p7 y% @7 ~
K均值聚类算法的优点包括简单、易于实现,以及在大规模数据集上的高效性。然而,该算法对于初始聚类中心的选择敏感,并且对于非凸形状的聚类较为困难。
4 J$ Z( a5 v  a' g0 D# N! ^2 O在Python中,你可以使用scikit-learn库中的KMeans类来实现K均值聚类算法。该类提供了灵活的参数设置,例如聚类数量、初始聚类中心的选择方法等。
6 N) b' P$ s! _; z& v( ~6 U逐行解释代码的含义:1 |0 [6 Z8 t) v# ?9 x% T
import numpy as np
3 V: @& r! k" zimport pandas as pd
5 w& {" _" c( T- Y5 Q( T! c+ limport matplotlib.pyplot as plt" V! i& m% n6 ?5 t! Z
from sklearn.datasets import load_iris
) ?# E3 `6 C1 m, Efrom sklearn.cluster import KMeans
: |  w% l' k7 b. kfrom sklearn.metrics import silhouette_score: _* }4 u& P3 T, `
# \6 {6 e0 R! Q* B
这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,matplotlib.pyplot用于绘图,sklearn.datasets中的load_iris用于加载鸢尾花数据集,sklearn.cluster中的KMeans用于K均值聚类,sklearn.metrics中的silhouette_score用于计算轮廓系数。' ?0 f) m8 V9 r0 E: f4 U8 @
df = pd.DataFrame(load_iris()['data'], columns=load_iris()['feature_names'])
# H, x3 q1 p, U3 i0 s9 O/ W: K
$ m% m. F6 ~9 ^9 t8 K9 e这行代码使用load_iris函数加载鸢尾花数据集,并将数据存储到一个DataFrame对象df中。数据集中的每个样本具有4个特征:花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)和花瓣宽度(petal width)。( m$ Q* z1 X& V& I8 f( Z
score_list = []
0 B5 P1 \$ H3 Tfor i in range(2, 10):
& b. Y0 M! V  D' h/ ^7 x9 `0 O    model = KMeans(i)
9 q/ I7 d1 p" l" v- W    model.fit(df.iloc[:,:2])
( j% U- X/ Z' Q# ]  s3 |$ h0 w    score_list.append(silhouette_score(df, model.labels_))  E5 P- n) t8 t' o
& c1 h$ N3 I0 C0 F2 ^4 k& M, ]* b
plt.plot([i for i in range(2, 10)], score_list)
/ ]5 u* {7 u3 i) U# M/ |0 {5 O) H- y7 T1 a
这段代码计算K取不同值时的轮廓系数,并绘制了K值与轮廓系数之间的曲线图。首先,循环从2到9遍历不同的K值。在每次迭代中,创建一个KMeans对象并指定K值,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,计算当前聚类结果的轮廓系数,并将其添加到score_list列表中。最后,使用matplotlib.pyplot绘制K值与轮廓系数之间的曲线图。
) @* r: m  E/ @model = KMeans(3)  g% g- A2 f2 V( L/ b
model.fit(df.iloc[:,:2])- f/ Z9 C0 A+ C- F, A
df2 = df.iloc[:,:2].copy(). g* R$ L" F# W4 Y
df2['label'] = model.labels_
. w( G2 ~: @5 I8 C/ V: @3 ~9 K. k8 p1 M! L" a+ w. R
from plotnine import *  x8 }3 U" N2 M4 m4 e

4 `, v8 N3 r9 k9 [8 K& @7 V& V(: U, @5 P7 Q4 ?  [2 {
    ggplot(df2,aes('sepal length (cm)', 'sepal width (cm)', color='label'))
: D2 R: a+ D$ M    + geom_point()" z4 ?6 U) f7 ^
    + theme_matplotlib()+ d/ Q& J! B, X+ c
). K0 \+ N; k/ j0 D4 x

# R0 ]5 i0 \8 M6 q$ J2 A这段代码进行了最终的K均值聚类和绘图。首先,创建一个KMeans对象并指定K值为3,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,创建一个新的DataFrame对象df2,其中包含原始数据集的前两列特征以及聚类结果的标签。然后,导入plotnine库,并使用其提供的函数绘制散点图。通过指定x轴为花萼长度,y轴为花萼宽度,颜色根据聚类标签进行分类。最后,使用theme_matplotlib函数设置绘图的主题样式为与matplotlib兼容的样式。
! Q/ t5 `3 S/ g1 W/ e希望这个逐行解释对你有所帮助!如果你还有其他问题,请随时提问。
) v0 P! f. R' l. Z. O% @
2 ^/ [9 [% Z0 e5 ^! W6 x4 N
% c4 r% Y$ ]+ W* W  p2 L
9 Q1 n4 _" }; J5 W) J0 X0 @/ G$ \

29.kmeans_clustering.py

902 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 2 点体力  [记录]  [购买]

zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2025-7-26 01:38 , Processed in 0.458093 second(s), 54 queries .

回顶部