QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1783|回复: 0
打印 上一主题 下一主题

无监督学习练习 对客户进行分组

[复制链接]
字体大小: 正常 放大

1189

主题

4

听众

2934

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-31 16:38 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
  • 客户细分(K-均值聚类)
    • 数据集:使用任何公开的客户数据集,如零售数据。
    • 任务:根据购买行为对客户进行分组。
    • 挑战:尝试不同的聚类算法(如DBSCAN、层次聚类)和调整参数来找到最佳的客户分组。. \+ n$ R' k2 a
    ( k! a8 I2 Q; I0 P2 ~
使用KMeans进行客户细分
  1. from sklearn.cluster import KMeans! z, _' z: C: i: \
  2. from sklearn.preprocessing import StandardScaler) t. g& e% C4 n- S) T
  3. import pandas as pd3 ~+ F& P1 [+ i
  4. ( z- k6 q: W' R3 Y. {* f6 \
  5. # 加载客户数据集) L( E( ?( U7 n+ A  m
  6. # 假设df是一个Pandas DataFrame,包含了你感兴趣的特征\" p/ ]& i6 Z/ j$ j% p
  7. # df = pd.read_csv('your_customer_data.csv')& ?# j+ H; V\" ^7 R$ V\" |
  8. \" }2 u+ n8 {4 H' ^
  9. # 对数据进行标准化处理: p8 a  q5 d7 Q% l
  10. scaler = StandardScaler()
    2 M3 ]; K7 @' V7 I+ Y
  11. scaled_features = scaler.fit_transform(df)
    3 c, [/ F* @5 u9 @+ b1 Y# e

  12. 3 w* F. m) [0 i6 @
  13. # 使用KMeans进行聚类9 }3 b7 h/ A; Z( p: I3 ~; ~
  14. kmeans = KMeans(n_clusters=5, random_state=42)
    \" _- p/ \6 X6 N, N1 m
  15. kmeans.fit(scaled_features)
    ! l5 @& D8 H, X4 W1 P0 {
  16. ; R3 e6 K' c+ H\" f% E) v
  17. # 将聚类结果添加到原始DataFrame中+ @$ b& x' H& u8 j( d& p% ^
  18. df['Cluster'] = kmeans.labels_( n$ i, B4 ^8 ]# k% v
  19. % ?( q) g5 [2 z) q\" S8 {2 r
  20. # 查看聚类结果
    % m# p& p* k/ F. T% H2 X  q7 D
  21. print(df.head())
复制代码

在这个示例中,我们首先对特征进行了标准化处理,这是聚类分析中的一个常见步骤,以确保所有特征在相同的尺度上。然后,我们使用KMeans算法对客户进行了分组,这里假设我们想要将客户分成5个群体。

尝试其他聚类算法DBSCAN
  1. from sklearn.cluster import DBSCAN+ Q6 k, t' Y& H  w# a0 ]
  2. * E) Q; T! X9 I
  3. # 使用DBSCAN进行聚类  X) K$ V% R' L5 G0 B5 Y
  4. dbscan = DBSCAN(eps=0.5, min_samples=5)' w5 u6 i( ~3 a: B. l$ |+ A
  5. df['Cluster'] = dbscan.fit_predict(scaled_features)- r! L0 U8 J  R

  6. ; v' v9 X) K' S$ f% E\" `1 u( y
  7. # 查看聚类结果
    % Q; D- \6 R) p0 s/ M
  8. print(df.head())
复制代码
层次聚类
  1. from sklearn.cluster import AgglomerativeClustering
    # P9 B5 A5 n) F) f; `. [

  2. 2 Q# l2 C1 V& `& P7 k) y
  3. # 使用层次聚类进行聚类( J* K$ v. f( B- P) y% F
  4. agg_clustering = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward')) t! w. U) }9 \- R
  5. df['Cluster'] = agg_clustering.fit_predict(scaled_features)
    : B\" m5 w/ ~/ A) {9 ^
  6. # M4 k8 H0 K  p9 [& J- K7 F& B# C
  7. # 查看聚类结果7 K$ t0 i3 Z% V. p2 C6 ^
  8. print(df.head())
复制代码
调整参数和选择算法
' U, F8 q- e! t' j: `/ RKMeans:n_clusters是一个关键参数,决定了聚类的数量。可以使用轮廓分析或肘方法来帮助确定最佳的聚类数量。
; X# U6 K8 S+ C4 F: cDBSCAN:eps和min_samples是关键参数,分别决定了样本成为核心点的条件。这些参数对结果的影响较大,通常需要通过尝试不同的值来找到最佳的参数设置。
; d0 W8 s; O9 R; |4 V( {) `- c层次聚类:n_clusters、affinity和linkage是重要的参数,它们分别控制聚类的数量、用于计算距离的方法和聚类合并的准则。
6 u" o( W% G! I! g/ v/ C9 L选择哪种聚类算法以及相应的参数设置,取决于数据集的特性和分析任务的目标。实践中,通常建议尝试多种聚类算法和参数配置,然后根据聚类的质量(例如,通过轮廓系数评估)来选择最佳的方法/ `9 Q; q5 N3 T0 z4 ?# `

& @0 ]7 V" A! [4 k' m+ \: F
+ X0 J8 |3 m  q. x6 Z5 `, I# u1 _7 @2 `& U' o
zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-6-11 07:14 , Processed in 0.456711 second(s), 50 queries .

回顶部