QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1734|回复: 0
打印 上一主题 下一主题

无监督学习练习 对客户进行分组

[复制链接]
字体大小: 正常 放大

1186

主题

4

听众

2922

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-31 16:38 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
  • 客户细分(K-均值聚类)
    • 数据集:使用任何公开的客户数据集,如零售数据。
    • 任务:根据购买行为对客户进行分组。
    • 挑战:尝试不同的聚类算法(如DBSCAN、层次聚类)和调整参数来找到最佳的客户分组。7 t; I. g/ v' h* k/ W6 r% Z
    ( g: ^) e7 T- C8 C: s2 \
使用KMeans进行客户细分
  1. from sklearn.cluster import KMeans
    8 p\" J# ^& u- ^& g$ ]  r0 u- h
  2. from sklearn.preprocessing import StandardScaler
      a4 r3 O\" ]% M& b& d
  3. import pandas as pd
    : x4 I. [7 W7 w, a1 S

  4. 6 c5 K1 _- j3 o* ^
  5. # 加载客户数据集, N! q; N! J8 J$ |' w/ S
  6. # 假设df是一个Pandas DataFrame,包含了你感兴趣的特征3 c$ y% \0 b$ x* I5 v- g1 t
  7. # df = pd.read_csv('your_customer_data.csv')
    ; W, ]- S$ e2 ]2 w- J1 o
  8. 9 M; S1 c9 [% |& g
  9. # 对数据进行标准化处理* S# Y, t- L8 Q6 `2 |
  10. scaler = StandardScaler()9 u2 K8 r) I7 N8 x2 _6 ^
  11. scaled_features = scaler.fit_transform(df)
    ( x7 L- C) F  t5 y\" F% z1 g* [8 u

  12.   `+ h0 v9 A\" h  x* z! O; @1 ?
  13. # 使用KMeans进行聚类
      v) r  m* v! m/ R
  14. kmeans = KMeans(n_clusters=5, random_state=42), |. ], R0 z! V9 Z. Q8 {\" ~- y\" g
  15. kmeans.fit(scaled_features)
    0 `0 {: w+ b0 J3 R

  16. 6 {, W, S; H& s! o& c3 h
  17. # 将聚类结果添加到原始DataFrame中
    * D% Z/ k: Y0 m& \2 t  |
  18. df['Cluster'] = kmeans.labels_
    # b, m2 H* {( e

  19. 1 y) ?/ j) K, @: D5 z3 S
  20. # 查看聚类结果* y1 U/ Q9 U0 X* R4 q
  21. print(df.head())
复制代码

在这个示例中,我们首先对特征进行了标准化处理,这是聚类分析中的一个常见步骤,以确保所有特征在相同的尺度上。然后,我们使用KMeans算法对客户进行了分组,这里假设我们想要将客户分成5个群体。

尝试其他聚类算法DBSCAN
  1. from sklearn.cluster import DBSCAN
      D1 l$ G5 K' s, x! A

  2. ! T% o8 I' h\" m6 k8 x
  3. # 使用DBSCAN进行聚类5 K/ T! ]6 p3 T  W3 L1 D
  4. dbscan = DBSCAN(eps=0.5, min_samples=5)+ t% ], ?\" F* r  ~5 C, _9 m  {3 p
  5. df['Cluster'] = dbscan.fit_predict(scaled_features)
    1 X- `& N! o+ g5 S  ^
  6. ! w, X2 f1 m3 c\" {7 u
  7. # 查看聚类结果% s2 z! y9 N# [: }9 G. h, V
  8. print(df.head())
复制代码
层次聚类
  1. from sklearn.cluster import AgglomerativeClustering
    / ?5 Z9 o1 [/ u: c9 t& Y1 Y

  2. $ d% L; l, q& P4 o
  3. # 使用层次聚类进行聚类
    4 }: U& G: d0 W
  4. agg_clustering = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward')
    + f0 X7 i8 _7 s* R
  5. df['Cluster'] = agg_clustering.fit_predict(scaled_features)
    ) q* c7 w' k! I9 E! G. q\" ?
  6. 3 h* W8 h0 L# Y
  7. # 查看聚类结果4 @) F2 N1 \; Z2 E
  8. print(df.head())
复制代码
调整参数和选择算法
7 V8 F. q: j- i8 xKMeans:n_clusters是一个关键参数,决定了聚类的数量。可以使用轮廓分析或肘方法来帮助确定最佳的聚类数量。
0 W, |7 x9 C+ f5 HDBSCAN:eps和min_samples是关键参数,分别决定了样本成为核心点的条件。这些参数对结果的影响较大,通常需要通过尝试不同的值来找到最佳的参数设置。
" u- t2 `7 {" G( [/ C, ~9 B- m层次聚类:n_clusters、affinity和linkage是重要的参数,它们分别控制聚类的数量、用于计算距离的方法和聚类合并的准则。; B$ H3 \2 g& c% }: U
选择哪种聚类算法以及相应的参数设置,取决于数据集的特性和分析任务的目标。实践中,通常建议尝试多种聚类算法和参数配置,然后根据聚类的质量(例如,通过轮廓系数评估)来选择最佳的方法5 k6 Y& n2 C" v& ?( l( y9 G, z
% c5 P9 E% k$ U( N: A0 k3 s
" x$ \$ [& N2 b! H7 R+ H( j0 A

; z) i5 F$ J+ U2 L- u/ Z  f/ ~
zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-4-14 23:24 , Processed in 0.407718 second(s), 50 queries .

回顶部