QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2267|回复: 0
打印 上一主题 下一主题

python实现k均值聚类

[复制链接]
字体大小: 正常 放大

1186

主题

4

听众

2922

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-21 10:57 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
K均值聚类(K-means Clustering)是一种常见的聚类算法,它将数据点划分为预先指定数量的聚类。该算法使用迭代的方法,通过最小化样本点与所属聚类中心之间的距离来优化聚类结果。
( p$ P7 X  `, m9 ZK均值聚类算法的步骤如下:; R- Z1 d0 T% s( l
9 r$ |5 j8 q9 v, ^8 P
1.随机选择K个初始聚类中心点(质心)。K代表要形成的聚类数量。2 t* J9 Z; a: p4 a( ]0 h1 T, y. m8 q
2.将数据点分配给最近的聚类中心,形成K个聚类。7 v" Y) d- `% b6 }
3.计算每个聚类的新聚类中心,即将当前所属聚类中的样本点的均值作为新的聚类中心。
- b$ [$ |2 y$ [. ?6 X" t3 p4.重复步骤2和步骤3,直到满足某个停止条件,例如聚类中心不再发生变化或达到最大迭代次数。% N& K) p/ l' ?
# D% {9 X2 }  T
K均值聚类算法的优点包括简单、易于实现,以及在大规模数据集上的高效性。然而,该算法对于初始聚类中心的选择敏感,并且对于非凸形状的聚类较为困难。
5 T7 e8 v$ x: ?; w4 U7 p在Python中,你可以使用scikit-learn库中的KMeans类来实现K均值聚类算法。该类提供了灵活的参数设置,例如聚类数量、初始聚类中心的选择方法等。
4 S6 b& \# `4 L5 }; [7 o逐行解释代码的含义:
# E( ~! s0 s& B! k# A( Mimport numpy as np$ t( D4 F9 r# E0 a
import pandas as pd( `0 \+ v  s2 w- j# D
import matplotlib.pyplot as plt
4 l# o2 Q( m7 A  v% Bfrom sklearn.datasets import load_iris
, |& t+ |- z+ x# Y2 yfrom sklearn.cluster import KMeans+ C( Y8 }4 m) c2 X) Z! J( D. {4 U8 u
from sklearn.metrics import silhouette_score
8 {/ O) F: `2 M" ^. N. }5 T1 J+ Y/ P2 W1 n7 ~0 c$ F* O; u
这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,matplotlib.pyplot用于绘图,sklearn.datasets中的load_iris用于加载鸢尾花数据集,sklearn.cluster中的KMeans用于K均值聚类,sklearn.metrics中的silhouette_score用于计算轮廓系数。
' D0 g0 @1 \3 d( I* mdf = pd.DataFrame(load_iris()['data'], columns=load_iris()['feature_names'])1 \( c# M6 U4 u$ h1 T" f
( Q& g! F5 l' x/ z
这行代码使用load_iris函数加载鸢尾花数据集,并将数据存储到一个DataFrame对象df中。数据集中的每个样本具有4个特征:花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)和花瓣宽度(petal width)。
. I* ^$ C% r# q( q9 J1 D: Uscore_list = []
* B% m8 e; K; U4 g1 R8 Tfor i in range(2, 10):
- k1 U* K- I) U9 Q- L5 @) R    model = KMeans(i)" F6 ~$ |) @# J. z3 f* [# }
    model.fit(df.iloc[:,:2])
$ l0 C) ?! F1 ?3 b    score_list.append(silhouette_score(df, model.labels_)); y3 b* M4 ?4 U! M0 k
* _# x& s  K5 j8 p0 l1 s) z
plt.plot([i for i in range(2, 10)], score_list)
* F( \7 \" D* G$ W; m: M5 _5 d! W4 U, p7 f) K5 ]  Q
这段代码计算K取不同值时的轮廓系数,并绘制了K值与轮廓系数之间的曲线图。首先,循环从2到9遍历不同的K值。在每次迭代中,创建一个KMeans对象并指定K值,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,计算当前聚类结果的轮廓系数,并将其添加到score_list列表中。最后,使用matplotlib.pyplot绘制K值与轮廓系数之间的曲线图。6 P0 O4 _! |2 Z. X! p
model = KMeans(3)
0 ~! \$ @+ d7 V: ^2 T5 p  R* Umodel.fit(df.iloc[:,:2])
6 m* K2 `, A, d' ]/ Y" `7 Adf2 = df.iloc[:,:2].copy()
! ^9 n1 e9 W# U+ l8 v/ F' vdf2['label'] = model.labels_
! H# O* }1 v, c1 R$ E% }
& }8 [- N& I2 n6 \) pfrom plotnine import *
; M* x8 j  Y8 {# @. L
% X5 _3 X3 e( q5 H; N1 O(  x& @7 W' T9 I1 J
    ggplot(df2,aes('sepal length (cm)', 'sepal width (cm)', color='label'))
4 K: s; L* [* ?! w6 t' M1 T    + geom_point()
/ [, N$ U' f8 z+ }) u& |, O    + theme_matplotlib()4 I, V3 }& j$ t8 h8 S4 s
)& y2 `9 X$ L$ x# o$ t7 e4 F

! ?0 |2 {3 F+ A6 Q. C# L8 c  l这段代码进行了最终的K均值聚类和绘图。首先,创建一个KMeans对象并指定K值为3,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,创建一个新的DataFrame对象df2,其中包含原始数据集的前两列特征以及聚类结果的标签。然后,导入plotnine库,并使用其提供的函数绘制散点图。通过指定x轴为花萼长度,y轴为花萼宽度,颜色根据聚类标签进行分类。最后,使用theme_matplotlib函数设置绘图的主题样式为与matplotlib兼容的样式。
0 S  @, }* ]( n/ R希望这个逐行解释对你有所帮助!如果你还有其他问题,请随时提问。
  f( T7 f% @. N2 t/ w
2 [0 G) E1 x; u) p# W! Q1 P
1 J# w/ {1 [8 T/ E3 L; l/ ~3 {0 g, a# x( x; U, \

29.kmeans_clustering.py

902 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 2 点体力  [记录]  [购买]

zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-4-10 15:28 , Processed in 0.413422 second(s), 55 queries .

回顶部