QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1687|回复: 0
打印 上一主题 下一主题

python实现k均值聚类

[复制链接]
字体大小: 正常 放大

1175

主题

4

听众

2818

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-21 10:57 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
K均值聚类(K-means Clustering)是一种常见的聚类算法,它将数据点划分为预先指定数量的聚类。该算法使用迭代的方法,通过最小化样本点与所属聚类中心之间的距离来优化聚类结果。
& o$ N6 W1 ~5 |6 ~K均值聚类算法的步骤如下:8 q; ]6 [4 r  U* Y0 O4 v3 a5 t

2 {' I( w4 c# [! m1.随机选择K个初始聚类中心点(质心)。K代表要形成的聚类数量。* v+ q* @* V/ Y4 K6 g
2.将数据点分配给最近的聚类中心,形成K个聚类。
8 i$ o; Y4 v+ h% _. _8 }3.计算每个聚类的新聚类中心,即将当前所属聚类中的样本点的均值作为新的聚类中心。  n( v/ ]& @( [
4.重复步骤2和步骤3,直到满足某个停止条件,例如聚类中心不再发生变化或达到最大迭代次数。7 m' \  |( ~3 D; g! V& j

, {* p: m9 y) X2 r7 l0 GK均值聚类算法的优点包括简单、易于实现,以及在大规模数据集上的高效性。然而,该算法对于初始聚类中心的选择敏感,并且对于非凸形状的聚类较为困难。
7 \4 f" p  A/ I1 @+ G! M# z在Python中,你可以使用scikit-learn库中的KMeans类来实现K均值聚类算法。该类提供了灵活的参数设置,例如聚类数量、初始聚类中心的选择方法等。/ M! \. o+ z  m4 T* Y2 V
逐行解释代码的含义:
8 d* B+ k; T* l9 Timport numpy as np( t  S  c. a" Y
import pandas as pd
  {( Z5 W) l' Jimport matplotlib.pyplot as plt
, ?& R- y3 q- i2 D; ]1 x+ dfrom sklearn.datasets import load_iris
6 l( S5 `( F3 V& J3 gfrom sklearn.cluster import KMeans- p6 Z# D( P2 `( h8 r. i  ^
from sklearn.metrics import silhouette_score
0 m+ K4 {( T5 P# g7 G& N2 v
1 U, C, K5 c. q  c/ z这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,matplotlib.pyplot用于绘图,sklearn.datasets中的load_iris用于加载鸢尾花数据集,sklearn.cluster中的KMeans用于K均值聚类,sklearn.metrics中的silhouette_score用于计算轮廓系数。
3 h. C, e* g1 H' P% d) ]4 u7 o7 L8 edf = pd.DataFrame(load_iris()['data'], columns=load_iris()['feature_names'])3 b& C# d- j& ]4 @  [

, T: w8 y: O9 F% |0 Q, T' Z$ B5 Z这行代码使用load_iris函数加载鸢尾花数据集,并将数据存储到一个DataFrame对象df中。数据集中的每个样本具有4个特征:花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)和花瓣宽度(petal width)。
8 a# z( p: ]# E5 P& [score_list = []
% T% q4 p# k, afor i in range(2, 10):
. U0 A) Z$ K, Z6 G1 s2 Z    model = KMeans(i)# e& \7 E% l* F! m  i
    model.fit(df.iloc[:,:2])
" g4 |; d$ p: l+ m8 W9 q( n. p    score_list.append(silhouette_score(df, model.labels_))
! v/ r9 F- q, p% Y( l
" U* [6 k6 B$ J" {, Xplt.plot([i for i in range(2, 10)], score_list)
; I4 K8 N# @4 x7 O' j, f" W
( S4 K# I. l) R" U; G2 m& E# C这段代码计算K取不同值时的轮廓系数,并绘制了K值与轮廓系数之间的曲线图。首先,循环从2到9遍历不同的K值。在每次迭代中,创建一个KMeans对象并指定K值,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,计算当前聚类结果的轮廓系数,并将其添加到score_list列表中。最后,使用matplotlib.pyplot绘制K值与轮廓系数之间的曲线图。1 o! t( g. u6 ?. W
model = KMeans(3)8 h5 O/ P9 l; d' Y
model.fit(df.iloc[:,:2])3 K/ d! j7 \; ?& Y7 ~- l8 k( b
df2 = df.iloc[:,:2].copy()0 c- G/ `4 F0 ~- M
df2['label'] = model.labels_9 K  j  w7 ?' t9 a* o
8 b" L) n  C) [7 Y
from plotnine import *4 T! d1 D  M0 j) V1 b
1 ]  R( ?+ ?! t+ z  l
(
+ T. i4 c6 d, A0 `* C( }; L    ggplot(df2,aes('sepal length (cm)', 'sepal width (cm)', color='label'))+ m+ `) u  _. T8 k
    + geom_point()
) x8 w( a  |* ^4 \6 S    + theme_matplotlib(), N# Y1 o! v+ s" T( v- s
)
2 O/ u8 @# A) g0 ?- a. V
0 h6 x. ^$ m7 _- b: V这段代码进行了最终的K均值聚类和绘图。首先,创建一个KMeans对象并指定K值为3,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,创建一个新的DataFrame对象df2,其中包含原始数据集的前两列特征以及聚类结果的标签。然后,导入plotnine库,并使用其提供的函数绘制散点图。通过指定x轴为花萼长度,y轴为花萼宽度,颜色根据聚类标签进行分类。最后,使用theme_matplotlib函数设置绘图的主题样式为与matplotlib兼容的样式。" ^3 l( Q' v8 Y" {# P  Z; R& e
希望这个逐行解释对你有所帮助!如果你还有其他问题,请随时提问。! s4 S0 l8 k9 L2 ~5 {& j( K  C
3 R$ [# j+ x4 {& C
; [) y9 H2 V* b; w4 ]% D
) C/ w" z$ R/ J: x

29.kmeans_clustering.py

902 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 2 点体力  [记录]  [购买]

zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2025-7-20 02:05 , Processed in 0.281524 second(s), 54 queries .

回顶部