QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1740|回复: 0
打印 上一主题 下一主题

无监督学习练习 对客户进行分组

[复制链接]
字体大小: 正常 放大

1186

主题

4

听众

2923

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-31 16:38 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
  • 客户细分(K-均值聚类)
    • 数据集:使用任何公开的客户数据集,如零售数据。
    • 任务:根据购买行为对客户进行分组。
    • 挑战:尝试不同的聚类算法(如DBSCAN、层次聚类)和调整参数来找到最佳的客户分组。
      * i- B+ A: d8 q1 Y/ D) a
    . C& p9 M- |3 {, t! }  j
使用KMeans进行客户细分
  1. from sklearn.cluster import KMeans
    ) t\" ?+ A9 j- ]8 p3 h: q( ^4 [4 Z
  2. from sklearn.preprocessing import StandardScaler
    8 B2 G7 H1 ]* F- n1 ]2 a
  3. import pandas as pd
    ; ?4 i5 r6 S. [0 |
  4. * V, ^1 o7 `! k; C/ i: q( k
  5. # 加载客户数据集
    2 H$ m2 g6 V) T( U: K1 V* P
  6. # 假设df是一个Pandas DataFrame,包含了你感兴趣的特征
    0 c% Y& I9 S- K; _, u, w
  7. # df = pd.read_csv('your_customer_data.csv')* P2 j. K1 k! b
  8. ; u3 ~! e- [9 |+ K# B' a
  9. # 对数据进行标准化处理2 C. M9 |2 I. z$ \4 [. c  d& S2 a
  10. scaler = StandardScaler()5 ?' u7 d+ `2 C8 T1 n
  11. scaled_features = scaler.fit_transform(df)
    7 a8 E! r3 c, t  N
  12. ' c: C5 \4 W1 q* H% ^
  13. # 使用KMeans进行聚类; t* A6 `! `' j4 d
  14. kmeans = KMeans(n_clusters=5, random_state=42). {* C+ D9 [2 A  W; Z
  15. kmeans.fit(scaled_features)2 \- [6 d1 i+ k) Q+ H

  16. 3 m( }- F2 y6 J# N# X
  17. # 将聚类结果添加到原始DataFrame中2 \' }! P) w! \- l3 x
  18. df['Cluster'] = kmeans.labels_
    3 K' b4 @4 ]& E; B

  19. 8 Z\" |5 H2 ?3 P
  20. # 查看聚类结果
    \" X6 z5 p; P, F. n5 T8 c: a5 U
  21. print(df.head())
复制代码

在这个示例中,我们首先对特征进行了标准化处理,这是聚类分析中的一个常见步骤,以确保所有特征在相同的尺度上。然后,我们使用KMeans算法对客户进行了分组,这里假设我们想要将客户分成5个群体。

尝试其他聚类算法DBSCAN
  1. from sklearn.cluster import DBSCAN
    9 G( Y0 j\" c9 [7 i, F8 {' U

  2. * Y! `) F. j' k
  3. # 使用DBSCAN进行聚类
    8 r. X7 n2 l7 U% S; f# R% I
  4. dbscan = DBSCAN(eps=0.5, min_samples=5)# t0 y, S( L; r
  5. df['Cluster'] = dbscan.fit_predict(scaled_features)
    + N# Q1 U+ @2 e' S5 j* ]  G

  6. ; \' I. K2 i* y1 s3 _7 P
  7. # 查看聚类结果
    1 U' ~. W\" Y9 F\" C. Y4 ]+ r
  8. print(df.head())
复制代码
层次聚类
  1. from sklearn.cluster import AgglomerativeClustering( X0 t# \3 b1 v
  2. ! B* s0 N\" u\" Y
  3. # 使用层次聚类进行聚类
    , s' f8 b# W; O1 {. Z/ G, X$ E
  4. agg_clustering = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward')! P1 A- c: |* l! L4 n
  5. df['Cluster'] = agg_clustering.fit_predict(scaled_features)
    , O$ R5 Q- W* P1 p% k# y

  6. * r0 |7 u. H7 g9 J# v$ X5 j8 V! [! B
  7. # 查看聚类结果
    9 ^) G3 m; d  c, m
  8. print(df.head())
复制代码
调整参数和选择算法  j9 a4 o) L" L: z" K
KMeans:n_clusters是一个关键参数,决定了聚类的数量。可以使用轮廓分析或肘方法来帮助确定最佳的聚类数量。& ?. G2 F* p  C8 Z& q( G
DBSCAN:eps和min_samples是关键参数,分别决定了样本成为核心点的条件。这些参数对结果的影响较大,通常需要通过尝试不同的值来找到最佳的参数设置。/ e+ B- O* O* Q8 g
层次聚类:n_clusters、affinity和linkage是重要的参数,它们分别控制聚类的数量、用于计算距离的方法和聚类合并的准则。
& G4 s7 v6 Z6 C0 J3 f选择哪种聚类算法以及相应的参数设置,取决于数据集的特性和分析任务的目标。实践中,通常建议尝试多种聚类算法和参数配置,然后根据聚类的质量(例如,通过轮廓系数评估)来选择最佳的方法
" @* J$ |; g3 x/ L- l. g  D: \- m* e

! \& j3 t- i8 J/ E8 z( x' a' \2 f6 H6 D7 I% F' P
zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-4-17 22:43 , Processed in 0.577993 second(s), 51 queries .

回顶部