QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1535|回复: 0
打印 上一主题 下一主题

无监督学习练习 对客户进行分组

[复制链接]
字体大小: 正常 放大

1183

主题

4

听众

2908

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-31 16:38 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
  • 客户细分(K-均值聚类)
    • 数据集:使用任何公开的客户数据集,如零售数据。
    • 任务:根据购买行为对客户进行分组。
    • 挑战:尝试不同的聚类算法(如DBSCAN、层次聚类)和调整参数来找到最佳的客户分组。
      9 z2 e  ~) n3 Y8 Z

    + A" _) \4 N9 _0 N; x$ V
使用KMeans进行客户细分
  1. from sklearn.cluster import KMeans
    & E7 f6 f5 G6 p& T0 Z/ P. E0 D1 _
  2. from sklearn.preprocessing import StandardScaler
    * X& f$ ~1 J9 V4 }2 J
  3. import pandas as pd
    0 n+ u: ~# q; G, F
  4. : J! {* f! {% h  k4 |' B
  5. # 加载客户数据集
      A: R+ f) v3 O& ~7 D( K8 Z
  6. # 假设df是一个Pandas DataFrame,包含了你感兴趣的特征
    * ~  t\" ^7 U% z/ w
  7. # df = pd.read_csv('your_customer_data.csv')
    3 p5 X1 m) q9 j$ r$ A1 @
  8. ; H$ w% H2 J0 X0 `8 R8 W% j
  9. # 对数据进行标准化处理: m\" W% s: j3 ?8 F9 t) U
  10. scaler = StandardScaler()5 _. H( S) L8 \% a
  11. scaled_features = scaler.fit_transform(df)
    ! S5 ~; [; o# p: i

  12. 5 J' F+ r\" H; F8 V
  13. # 使用KMeans进行聚类, y  R; U' `4 _0 f2 ^- i
  14. kmeans = KMeans(n_clusters=5, random_state=42): ]6 M& y& u* C1 d4 J# y
  15. kmeans.fit(scaled_features)
    0 t7 ], {  B4 d( x+ b  U5 A

  16. ( v7 J# S9 }2 {- o; p9 J
  17. # 将聚类结果添加到原始DataFrame中
    1 z& {  T, n: p7 U\" ]2 Q\" m
  18. df['Cluster'] = kmeans.labels_
      U/ @+ e/ N7 v8 `, h, {! U8 }

  19. 5 H  e9 g+ W4 [8 x( D7 O+ a( H7 @
  20. # 查看聚类结果8 }7 T0 R) r; B5 O\" c( d: h
  21. print(df.head())
复制代码

在这个示例中,我们首先对特征进行了标准化处理,这是聚类分析中的一个常见步骤,以确保所有特征在相同的尺度上。然后,我们使用KMeans算法对客户进行了分组,这里假设我们想要将客户分成5个群体。

尝试其他聚类算法DBSCAN
  1. from sklearn.cluster import DBSCAN* z+ q$ ]9 e0 J( @- c8 J6 T
  2. ) v! o- |9 ]9 X: M
  3. # 使用DBSCAN进行聚类
    : u\" t% Y) R$ }
  4. dbscan = DBSCAN(eps=0.5, min_samples=5)  R/ @' R$ O3 i\" r9 I
  5. df['Cluster'] = dbscan.fit_predict(scaled_features)
    ; y6 m# C- H# `% c9 }7 W
  6. 9 N5 U* K3 o+ H& _, Y6 r
  7. # 查看聚类结果
    & M; Z' v  W% W' \\" p
  8. print(df.head())
复制代码
层次聚类
  1. from sklearn.cluster import AgglomerativeClustering
    & E; q' g2 S5 ~\" N( ~3 Y. K
  2. 3 e6 ~  G( o$ |0 G6 ~9 Q
  3. # 使用层次聚类进行聚类4 O. L- |# k* H& K# c
  4. agg_clustering = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward')
    ; t2 V' y# ^8 R9 Y
  5. df['Cluster'] = agg_clustering.fit_predict(scaled_features)
    / j* a% S$ h& R
  6. / b' w; ^' z/ w1 m. [' F
  7. # 查看聚类结果
    ; C' A* W& H# `2 D& I8 F# x
  8. print(df.head())
复制代码
调整参数和选择算法2 O( J" h: d$ \7 e" U. }
KMeans:n_clusters是一个关键参数,决定了聚类的数量。可以使用轮廓分析或肘方法来帮助确定最佳的聚类数量。! p- x/ ]; t4 \. u: N; d
DBSCAN:eps和min_samples是关键参数,分别决定了样本成为核心点的条件。这些参数对结果的影响较大,通常需要通过尝试不同的值来找到最佳的参数设置。
8 F7 J; A& [; `# ]4 i0 a层次聚类:n_clusters、affinity和linkage是重要的参数,它们分别控制聚类的数量、用于计算距离的方法和聚类合并的准则。6 h  X2 g7 q2 H
选择哪种聚类算法以及相应的参数设置,取决于数据集的特性和分析任务的目标。实践中,通常建议尝试多种聚类算法和参数配置,然后根据聚类的质量(例如,通过轮廓系数评估)来选择最佳的方法
8 i8 A/ f" f$ {) Y& U& ?- j0 T$ h' D/ v; u" N( ]
% ^  A3 ~' C/ h6 J3 ^

- k( T- o  Q0 u, J" ^0 P
zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2025-12-8 08:41 , Processed in 0.447460 second(s), 50 queries .

回顶部