QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2271|回复: 0
打印 上一主题 下一主题

python实现k均值聚类

[复制链接]
字体大小: 正常 放大

1186

主题

4

听众

2922

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-21 10:57 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
K均值聚类(K-means Clustering)是一种常见的聚类算法,它将数据点划分为预先指定数量的聚类。该算法使用迭代的方法,通过最小化样本点与所属聚类中心之间的距离来优化聚类结果。: r/ e% A3 L& d( C+ M
K均值聚类算法的步骤如下:7 R) b( m  K, U# s
4 a' j5 r0 p: r& D! u
1.随机选择K个初始聚类中心点(质心)。K代表要形成的聚类数量。& S9 d+ K% P0 L1 O; j' m, Z0 b7 _
2.将数据点分配给最近的聚类中心,形成K个聚类。
+ v( h% X, f) `' r. u3.计算每个聚类的新聚类中心,即将当前所属聚类中的样本点的均值作为新的聚类中心。
2 h2 N0 ^8 \% ^% O/ t4.重复步骤2和步骤3,直到满足某个停止条件,例如聚类中心不再发生变化或达到最大迭代次数。; |3 I0 k7 ?# k# {) q

  x5 @; ~* U6 }+ j( q5 D* J9 \K均值聚类算法的优点包括简单、易于实现,以及在大规模数据集上的高效性。然而,该算法对于初始聚类中心的选择敏感,并且对于非凸形状的聚类较为困难。3 k7 K6 K( H4 |
在Python中,你可以使用scikit-learn库中的KMeans类来实现K均值聚类算法。该类提供了灵活的参数设置,例如聚类数量、初始聚类中心的选择方法等。
. `& [1 e7 P0 ~6 K* ^# E逐行解释代码的含义:0 A+ K/ I6 Z. V% [$ D8 }
import numpy as np
; k5 _' f" W; h, O3 O. S- Q- Z; himport pandas as pd1 C: y7 C9 {: W! r. V. H, \, U
import matplotlib.pyplot as plt* @" k! n: j9 ]  [4 ?
from sklearn.datasets import load_iris9 ]; }" J9 M, _$ n  A% L
from sklearn.cluster import KMeans- L% m" W1 I- W# |/ o- \# V* S
from sklearn.metrics import silhouette_score% {8 j  _8 i- S0 g* M2 B
* g: y5 ^! F3 O- R( x* r# ?
这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,matplotlib.pyplot用于绘图,sklearn.datasets中的load_iris用于加载鸢尾花数据集,sklearn.cluster中的KMeans用于K均值聚类,sklearn.metrics中的silhouette_score用于计算轮廓系数。! ?7 ?6 q  c# H: }% X3 s" B1 i) X$ B' q
df = pd.DataFrame(load_iris()['data'], columns=load_iris()['feature_names'])5 v! {7 s8 [: L; ]4 F

4 c; ]1 A/ B4 \3 r, \这行代码使用load_iris函数加载鸢尾花数据集,并将数据存储到一个DataFrame对象df中。数据集中的每个样本具有4个特征:花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)和花瓣宽度(petal width)。3 J$ X- g$ @$ N; V8 R! t
score_list = []
$ @# p" T6 `3 T# e" ^# |7 G( b5 ?% rfor i in range(2, 10):1 p% p3 b. w* @/ b" X# W( e
    model = KMeans(i): k/ ?6 b7 O) E: J# o; ?, ~9 b
    model.fit(df.iloc[:,:2])* @0 y, ?! E3 s$ f' [3 o! J
    score_list.append(silhouette_score(df, model.labels_))4 S7 `, h8 C0 E( @" K( I+ h

" {4 t( n6 ]2 H6 M2 h* q0 s0 uplt.plot([i for i in range(2, 10)], score_list)5 J3 _# D: e8 R" \. B; v
. [% n' Z( X' t. a
这段代码计算K取不同值时的轮廓系数,并绘制了K值与轮廓系数之间的曲线图。首先,循环从2到9遍历不同的K值。在每次迭代中,创建一个KMeans对象并指定K值,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,计算当前聚类结果的轮廓系数,并将其添加到score_list列表中。最后,使用matplotlib.pyplot绘制K值与轮廓系数之间的曲线图。# j% t0 N& g" V8 O
model = KMeans(3)
- G+ }% @' ^7 s# nmodel.fit(df.iloc[:,:2])" a7 }% c% w) _
df2 = df.iloc[:,:2].copy(), ]% U& D1 n7 t  i  Z/ }
df2['label'] = model.labels_6 ~, u; g9 `6 i' r- T# ^

  a! B1 V) h- A" {+ v5 qfrom plotnine import *0 L; K5 f2 M8 ~5 g! l1 g

  I* y" J, o  y& M. {(7 A* y7 I( U3 K2 a: d% ?+ o, i2 T
    ggplot(df2,aes('sepal length (cm)', 'sepal width (cm)', color='label'))7 Y* r0 o" d0 h- J
    + geom_point()3 G1 s3 _* r; z7 y* O4 [, r7 o+ Z
    + theme_matplotlib()4 D% c) }6 O, @$ Y
)9 l# `6 l' A; a* y

- C+ W1 ]" L/ X, }这段代码进行了最终的K均值聚类和绘图。首先,创建一个KMeans对象并指定K值为3,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,创建一个新的DataFrame对象df2,其中包含原始数据集的前两列特征以及聚类结果的标签。然后,导入plotnine库,并使用其提供的函数绘制散点图。通过指定x轴为花萼长度,y轴为花萼宽度,颜色根据聚类标签进行分类。最后,使用theme_matplotlib函数设置绘图的主题样式为与matplotlib兼容的样式。
, R' H8 H  f9 H9 `希望这个逐行解释对你有所帮助!如果你还有其他问题,请随时提问。; U3 }3 F2 ~. v; Y# v% {! o
. ^0 g6 E% Z) ?: A7 z  q

! h9 R; p# a0 i9 }& g/ G) c' ~% X
5 H2 G6 c: }, V$ [: s

29.kmeans_clustering.py

902 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 2 点体力  [记录]  [购买]

zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-4-13 01:46 , Processed in 0.416476 second(s), 55 queries .

回顶部