QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1728|回复: 0
打印 上一主题 下一主题

无监督学习练习 对客户进行分组

[复制链接]
字体大小: 正常 放大

1186

主题

4

听众

2922

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-31 16:38 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
  • 客户细分(K-均值聚类)
    • 数据集:使用任何公开的客户数据集,如零售数据。
    • 任务:根据购买行为对客户进行分组。
    • 挑战:尝试不同的聚类算法(如DBSCAN、层次聚类)和调整参数来找到最佳的客户分组。; A- g/ j5 E$ z& G. H" k

    : J/ e) F* J2 o' o- f( s) j" I1 z9 E
使用KMeans进行客户细分
  1. from sklearn.cluster import KMeans
    : w, D' v* w7 x. K
  2. from sklearn.preprocessing import StandardScaler
    2 [2 Z8 x* i; X8 `
  3. import pandas as pd$ S& G5 \+ O0 q\" p' l

  4.   ]. B, c( l/ N\" i* v7 p# A
  5. # 加载客户数据集
    0 H, S: W/ V  t# _3 [. U
  6. # 假设df是一个Pandas DataFrame,包含了你感兴趣的特征
    - C. E! J# F. y
  7. # df = pd.read_csv('your_customer_data.csv')- N3 G- i: Z7 l/ q; R
  8. # `: I9 b, A\" g$ D: B; I
  9. # 对数据进行标准化处理3 k* U) c( C3 n9 F! O5 l: n
  10. scaler = StandardScaler()
    ) Q9 _, W, `2 g( v) A- z! V1 H
  11. scaled_features = scaler.fit_transform(df)# N# P6 V  _# y+ |\" }
  12. ( f5 p9 h+ {5 l3 H8 d
  13. # 使用KMeans进行聚类
    - o+ Q* k9 {* v5 u, v9 i8 Q
  14. kmeans = KMeans(n_clusters=5, random_state=42)
    3 Y! h+ g+ b5 _+ c( S) P- U
  15. kmeans.fit(scaled_features)) l( u3 S5 @5 j4 E1 X

  16. ' p# {+ [, x\" T9 x; X1 _
  17. # 将聚类结果添加到原始DataFrame中3 A; g' B& d6 R1 x5 u9 v
  18. df['Cluster'] = kmeans.labels_. N, F* A3 o4 E9 h- y& t8 k: s

  19. \" H9 j# s  e6 C1 s$ v
  20. # 查看聚类结果
    5 g& |& a$ e. v: t3 y. J
  21. print(df.head())
复制代码

在这个示例中,我们首先对特征进行了标准化处理,这是聚类分析中的一个常见步骤,以确保所有特征在相同的尺度上。然后,我们使用KMeans算法对客户进行了分组,这里假设我们想要将客户分成5个群体。

尝试其他聚类算法DBSCAN
  1. from sklearn.cluster import DBSCAN
    * H: v3 E% L3 j; ?/ v# @

  2. & |8 {! D- c' q  F# l. T
  3. # 使用DBSCAN进行聚类
    7 M6 x+ a8 u- g7 L
  4. dbscan = DBSCAN(eps=0.5, min_samples=5)
    ( c; f2 I( I/ D+ |: R- R* G- q0 r4 u% ?
  5. df['Cluster'] = dbscan.fit_predict(scaled_features)' b- O) |0 P, D8 _1 w% \\" A

  6. 7 g3 V% s! I, D
  7. # 查看聚类结果
    \" Y- Q/ x' N) R9 B
  8. print(df.head())
复制代码
层次聚类
  1. from sklearn.cluster import AgglomerativeClustering
      j' s- O# Q+ F3 X7 \% \) _: D9 y$ s
  2. + @% B0 T3 j7 C( E  V- e9 ~2 G
  3. # 使用层次聚类进行聚类6 D  z3 j5 w' a* T# \! S% K
  4. agg_clustering = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward')
      @  D+ J2 K. T) D6 V
  5. df['Cluster'] = agg_clustering.fit_predict(scaled_features): K& ^3 d  z: _' {0 W  k

  6. ! l5 [1 r) H( W3 {5 K
  7. # 查看聚类结果  x) C# v/ H6 B0 F8 `9 }  t\" ^
  8. print(df.head())
复制代码
调整参数和选择算法
" C$ J" i, A% E. C* Z1 p9 YKMeans:n_clusters是一个关键参数,决定了聚类的数量。可以使用轮廓分析或肘方法来帮助确定最佳的聚类数量。
4 {5 t: w- C3 L% P2 uDBSCAN:eps和min_samples是关键参数,分别决定了样本成为核心点的条件。这些参数对结果的影响较大,通常需要通过尝试不同的值来找到最佳的参数设置。. H* U% v) l' E6 {
层次聚类:n_clusters、affinity和linkage是重要的参数,它们分别控制聚类的数量、用于计算距离的方法和聚类合并的准则。
; B7 c  g. P0 y8 R' D/ g! ]4 x4 N选择哪种聚类算法以及相应的参数设置,取决于数据集的特性和分析任务的目标。实践中,通常建议尝试多种聚类算法和参数配置,然后根据聚类的质量(例如,通过轮廓系数评估)来选择最佳的方法2 f$ D) v5 `' e2 v

) T0 a2 L  Z, T$ ~) x# }; ~
, Q) o( Z! W* R& d
: C4 L3 l- `6 z4 {
zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-4-13 01:01 , Processed in 0.415395 second(s), 50 queries .

回顶部