QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1727|回复: 0
打印 上一主题 下一主题

无监督学习练习 对客户进行分组

[复制链接]
字体大小: 正常 放大

1186

主题

4

听众

2922

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-31 16:38 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
  • 客户细分(K-均值聚类)
    • 数据集:使用任何公开的客户数据集,如零售数据。
    • 任务:根据购买行为对客户进行分组。
    • 挑战:尝试不同的聚类算法(如DBSCAN、层次聚类)和调整参数来找到最佳的客户分组。
      " ~( R5 r" s' E4 ]- f2 S8 l  }

    " i% A8 D+ m& M6 B9 N
使用KMeans进行客户细分
  1. from sklearn.cluster import KMeans! U+ c- O6 Z8 S/ z( w; I: ~
  2. from sklearn.preprocessing import StandardScaler9 Q9 ~& F: b5 u( F9 x
  3. import pandas as pd
    / V9 P6 t: k/ Y1 E1 B8 x! `
  4. 2 d8 ]) e: v2 a7 B$ w5 k2 ~
  5. # 加载客户数据集- ?' l, L$ }- N% B: m; m7 y
  6. # 假设df是一个Pandas DataFrame,包含了你感兴趣的特征
    . f# h/ Y+ `/ i5 Y
  7. # df = pd.read_csv('your_customer_data.csv')  n- g/ C\" t' B4 n

  8. ) k4 H( v, m; j1 {. o
  9. # 对数据进行标准化处理( ?  G# s5 q3 S
  10. scaler = StandardScaler(); J2 C1 `# X- \# W* g' T( V
  11. scaled_features = scaler.fit_transform(df)! T1 X: O1 g5 n6 b3 m, v( M5 B

  12. . c* t! F0 a' r' ]
  13. # 使用KMeans进行聚类
    ( H: r4 M  r! Y. X
  14. kmeans = KMeans(n_clusters=5, random_state=42)
    ! ^( A\" s# p. }\" `7 F2 y, e0 ?
  15. kmeans.fit(scaled_features)$ G* R  x, {& ?- p) a\" e
  16. ( w0 @' P# Q) r. o0 H( @
  17. # 将聚类结果添加到原始DataFrame中
    . W. l( ?# j. A. Y
  18. df['Cluster'] = kmeans.labels_
    / x& ~$ X3 b1 b0 O% o* E\" ~
  19. $ d0 ]! k6 ]& }' S0 b3 a2 i2 O
  20. # 查看聚类结果4 u( V( P5 K$ G  s
  21. print(df.head())
复制代码

在这个示例中,我们首先对特征进行了标准化处理,这是聚类分析中的一个常见步骤,以确保所有特征在相同的尺度上。然后,我们使用KMeans算法对客户进行了分组,这里假设我们想要将客户分成5个群体。

尝试其他聚类算法DBSCAN
  1. from sklearn.cluster import DBSCAN\" r5 E7 e* k\" ]% A; s1 |

  2. $ F\" Q- W, B; i# g* C3 }$ D4 b! N
  3. # 使用DBSCAN进行聚类
    7 P( D1 s  D0 y: b+ D
  4. dbscan = DBSCAN(eps=0.5, min_samples=5)* t2 v6 A. [0 C\" f3 ]) {: s
  5. df['Cluster'] = dbscan.fit_predict(scaled_features), H% N\" @8 O1 m6 [
  6.   P/ S) M7 R: L9 @
  7. # 查看聚类结果2 O5 r6 P4 X  A: W' O
  8. print(df.head())
复制代码
层次聚类
  1. from sklearn.cluster import AgglomerativeClustering& S  A- W* x' w' y$ M' b

  2. , D. v7 [% `\" A* ^( \1 S
  3. # 使用层次聚类进行聚类
    ' H0 ^# J( m& y' ?6 ^. r
  4. agg_clustering = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward')6 ]7 u8 I- B5 @6 Z  R2 v
  5. df['Cluster'] = agg_clustering.fit_predict(scaled_features)' t% m, S/ |' B' M; f' N/ v$ _

  6. ! @\" T0 C9 d# ^
  7. # 查看聚类结果\" k* f2 Q8 O! U\" o6 y( d
  8. print(df.head())
复制代码
调整参数和选择算法
) z/ O7 @/ @( |7 f0 K5 ZKMeans:n_clusters是一个关键参数,决定了聚类的数量。可以使用轮廓分析或肘方法来帮助确定最佳的聚类数量。
2 B+ _2 F* A9 Q% O- o( q: ~DBSCAN:eps和min_samples是关键参数,分别决定了样本成为核心点的条件。这些参数对结果的影响较大,通常需要通过尝试不同的值来找到最佳的参数设置。
9 A+ a" E, T. I1 p5 R9 r, n层次聚类:n_clusters、affinity和linkage是重要的参数,它们分别控制聚类的数量、用于计算距离的方法和聚类合并的准则。% R7 Y8 a6 S* o9 Y, N! U
选择哪种聚类算法以及相应的参数设置,取决于数据集的特性和分析任务的目标。实践中,通常建议尝试多种聚类算法和参数配置,然后根据聚类的质量(例如,通过轮廓系数评估)来选择最佳的方法
) M2 A3 `; j2 F" l# d( ]: N. b. ?& u6 @) f
* H' C4 P4 d! X

; R' z& L3 }7 Z- J! r# _& x
zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-4-12 21:52 , Processed in 0.264915 second(s), 51 queries .

回顶部