QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2273|回复: 0
打印 上一主题 下一主题

python实现k均值聚类

[复制链接]
字体大小: 正常 放大

1186

主题

4

听众

2922

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-21 10:57 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
K均值聚类(K-means Clustering)是一种常见的聚类算法,它将数据点划分为预先指定数量的聚类。该算法使用迭代的方法,通过最小化样本点与所属聚类中心之间的距离来优化聚类结果。
9 b( J, z/ s+ c1 NK均值聚类算法的步骤如下:9 j- F7 ?! r5 X) h/ Z1 ~6 g

( D+ a* m/ W7 s+ s8 j3 r1.随机选择K个初始聚类中心点(质心)。K代表要形成的聚类数量。
2 J( W; M  l- H+ _  B& Q1 o2.将数据点分配给最近的聚类中心,形成K个聚类。
1 n' r- w$ ?% J/ d  O$ Q3.计算每个聚类的新聚类中心,即将当前所属聚类中的样本点的均值作为新的聚类中心。- k, D8 j7 S* {/ ~0 D' l
4.重复步骤2和步骤3,直到满足某个停止条件,例如聚类中心不再发生变化或达到最大迭代次数。
% i% l& A, D* `( c0 @1 @9 W- A9 E
! q) N' C, l( f4 j' O5 hK均值聚类算法的优点包括简单、易于实现,以及在大规模数据集上的高效性。然而,该算法对于初始聚类中心的选择敏感,并且对于非凸形状的聚类较为困难。
6 e$ g, {% B3 g4 t+ F, O在Python中,你可以使用scikit-learn库中的KMeans类来实现K均值聚类算法。该类提供了灵活的参数设置,例如聚类数量、初始聚类中心的选择方法等。+ M" C6 _4 r5 r% {
逐行解释代码的含义:
! M- n$ N" |" n2 c$ a$ s# timport numpy as np
. {) z4 x  {3 c' O; {import pandas as pd
7 Q' {' x- O5 o) simport matplotlib.pyplot as plt
: O# X5 I8 I" L  P: @$ K0 \from sklearn.datasets import load_iris
5 B8 X1 D, h4 V! L# n- }( Z) \  ofrom sklearn.cluster import KMeans! u  N" Q( |$ n+ g, T% j
from sklearn.metrics import silhouette_score
1 T0 i. v& ~3 F( O5 N  b& G9 m" E' b6 I" h7 n; u4 }  }1 b
这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,matplotlib.pyplot用于绘图,sklearn.datasets中的load_iris用于加载鸢尾花数据集,sklearn.cluster中的KMeans用于K均值聚类,sklearn.metrics中的silhouette_score用于计算轮廓系数。' O( E$ y4 e0 a9 n8 a
df = pd.DataFrame(load_iris()['data'], columns=load_iris()['feature_names'])
3 q, }$ e: A0 m' ]& q  z
; d+ c1 X1 e! y这行代码使用load_iris函数加载鸢尾花数据集,并将数据存储到一个DataFrame对象df中。数据集中的每个样本具有4个特征:花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)和花瓣宽度(petal width)。/ a0 s% U; d) e1 K- c' P" w
score_list = []! Q3 b9 ?0 \7 t  H
for i in range(2, 10):
" F- h1 C$ E% {& j& ~8 }- d    model = KMeans(i)
" D- x7 Z1 k6 f- H( Q    model.fit(df.iloc[:,:2])
1 m5 l1 S$ L, u* b! o    score_list.append(silhouette_score(df, model.labels_))
4 s& w! o- Y9 a$ K# L  L6 P! V  Q2 N0 O4 V. K" }
plt.plot([i for i in range(2, 10)], score_list)
9 I- F6 s  {3 t4 ?( y* J4 P, D
6 L7 Y$ J5 u& a3 x; ~' M8 ]- m7 p# U这段代码计算K取不同值时的轮廓系数,并绘制了K值与轮廓系数之间的曲线图。首先,循环从2到9遍历不同的K值。在每次迭代中,创建一个KMeans对象并指定K值,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,计算当前聚类结果的轮廓系数,并将其添加到score_list列表中。最后,使用matplotlib.pyplot绘制K值与轮廓系数之间的曲线图。# D- j+ m, Q- F+ Q" h
model = KMeans(3)
( b) g' J/ D0 }* [9 s6 T2 [# ]& f# cmodel.fit(df.iloc[:,:2]): U& q& R+ B% ^7 Q% e( G( d# F) N# k
df2 = df.iloc[:,:2].copy()
+ @" g9 \1 i6 R! ?* C; L/ S  Qdf2['label'] = model.labels_: R3 s* _5 D$ e: A# F

9 T" P2 \! D9 Qfrom plotnine import *  t* I3 D8 k+ k3 @! G
# ^- B0 t& f2 }! u! J1 L  q
(
6 \8 A, c) Z4 E, `) L3 V$ ^6 Y    ggplot(df2,aes('sepal length (cm)', 'sepal width (cm)', color='label'))/ h* E1 U: n8 T; x, [
    + geom_point()
9 Z) Q0 Z4 u0 \( S0 s& D    + theme_matplotlib()
7 t! C6 C; `- e; v5 ^7 |)
) _' P4 Q8 H( ^! \$ f
$ R7 R% E- I1 J这段代码进行了最终的K均值聚类和绘图。首先,创建一个KMeans对象并指定K值为3,然后使用鸢尾花数据集的前两列特征进行聚类。接下来,创建一个新的DataFrame对象df2,其中包含原始数据集的前两列特征以及聚类结果的标签。然后,导入plotnine库,并使用其提供的函数绘制散点图。通过指定x轴为花萼长度,y轴为花萼宽度,颜色根据聚类标签进行分类。最后,使用theme_matplotlib函数设置绘图的主题样式为与matplotlib兼容的样式。
' {; G5 {  h- }: I9 v希望这个逐行解释对你有所帮助!如果你还有其他问题,请随时提问。* \0 l" W7 }  D7 U( v: D( }; v- m

2 }5 z( U, d" ?. P/ d/ D0 U/ M$ |7 M1 Y% {/ @
& ~1 y+ ~8 `' x

29.kmeans_clustering.py

902 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 2 点体力  [记录]  [购买]

zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-4-13 12:48 , Processed in 0.351711 second(s), 56 queries .

回顶部