QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1789|回复: 0
打印 上一主题 下一主题

无监督学习练习 对客户进行分组

[复制链接]
字体大小: 正常 放大

1189

主题

4

听众

2934

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-31 16:38 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
  • 客户细分(K-均值聚类)
    • 数据集:使用任何公开的客户数据集,如零售数据。
    • 任务:根据购买行为对客户进行分组。
    • 挑战:尝试不同的聚类算法(如DBSCAN、层次聚类)和调整参数来找到最佳的客户分组。4 W% W7 ?( h1 M7 X

    7 t8 V: i- b9 N8 G& M6 o
使用KMeans进行客户细分
  1. from sklearn.cluster import KMeans\" s! }3 ~9 f  m( J6 d$ E
  2. from sklearn.preprocessing import StandardScaler# J9 |7 ^6 B7 x( F9 W, U- r# }
  3. import pandas as pd
    - K6 U9 V; K- j( x5 D

  4. 2 e' Q1 j1 B- y. Z' d/ s( F
  5. # 加载客户数据集4 K( U8 }- d  l: q
  6. # 假设df是一个Pandas DataFrame,包含了你感兴趣的特征
    + G3 s& W( K\" ]1 X7 Q( T
  7. # df = pd.read_csv('your_customer_data.csv')  [( n; L* z& O; z8 I
  8. 2 L\" U$ ^1 C$ B/ _
  9. # 对数据进行标准化处理\" O) B9 j0 s% ~* p6 R& W  q* o$ D
  10. scaler = StandardScaler()
    6 r$ D% w. I( N\" b: n\" f. L: h
  11. scaled_features = scaler.fit_transform(df)
    ( {* H4 e! J7 L! e

  12. / t% P- f- H\" ?# y
  13. # 使用KMeans进行聚类/ o% ~& Q5 T1 w$ X\" k+ {
  14. kmeans = KMeans(n_clusters=5, random_state=42)2 [  X, H\" X3 a: x
  15. kmeans.fit(scaled_features)
    1 X' U( G9 @4 c

  16. * F8 A- f. X5 t, Z2 v6 Y
  17. # 将聚类结果添加到原始DataFrame中
    , S; L0 L! t\" F7 i
  18. df['Cluster'] = kmeans.labels_) W2 [4 y( X( t( U2 `$ H  Z1 k* o

  19. 9 Q\" k  D5 m5 d4 I/ Q! M, N
  20. # 查看聚类结果
    8 q* c+ V( y8 \! T! b8 q: }/ R
  21. print(df.head())
复制代码

在这个示例中,我们首先对特征进行了标准化处理,这是聚类分析中的一个常见步骤,以确保所有特征在相同的尺度上。然后,我们使用KMeans算法对客户进行了分组,这里假设我们想要将客户分成5个群体。

尝试其他聚类算法DBSCAN
  1. from sklearn.cluster import DBSCAN
    3 @, c- r+ g4 }6 T. M2 g9 G6 I  |
  2. ' E% O. b! D, {& x, S. a0 T1 N
  3. # 使用DBSCAN进行聚类
    % i4 K( c\" w* c2 Z& A
  4. dbscan = DBSCAN(eps=0.5, min_samples=5)5 h) d: N0 W+ f- ]5 x& A\" |
  5. df['Cluster'] = dbscan.fit_predict(scaled_features)
    7 o\" c- f+ F' S; r\" }
  6. 3 E: u1 _\" o0 J; G& r
  7. # 查看聚类结果
    $ _\" d( H$ [5 K  P
  8. print(df.head())
复制代码
层次聚类
  1. from sklearn.cluster import AgglomerativeClustering
    & P# E0 X, H/ J/ M\" x* s) c

  2. \" V2 A\" x* M* h4 k
  3. # 使用层次聚类进行聚类6 J- N! o- ?( A9 I+ [9 o: Z
  4. agg_clustering = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward')6 o; E- \) c: a' O9 }0 g' B
  5. df['Cluster'] = agg_clustering.fit_predict(scaled_features): m6 Z! y9 g  V+ t$ L2 S$ |( k* {

  6. 3 t% O  ~+ M+ M7 u3 D: z
  7. # 查看聚类结果# Y8 U6 T9 g, }4 B: s\" m
  8. print(df.head())
复制代码
调整参数和选择算法  Z; K" d& x7 v
KMeans:n_clusters是一个关键参数,决定了聚类的数量。可以使用轮廓分析或肘方法来帮助确定最佳的聚类数量。
% U7 T: F& g% X- C: r$ Z0 `; CDBSCAN:eps和min_samples是关键参数,分别决定了样本成为核心点的条件。这些参数对结果的影响较大,通常需要通过尝试不同的值来找到最佳的参数设置。& z  O' _; k% e
层次聚类:n_clusters、affinity和linkage是重要的参数,它们分别控制聚类的数量、用于计算距离的方法和聚类合并的准则。
( Z. A+ [4 k( E/ q1 h选择哪种聚类算法以及相应的参数设置,取决于数据集的特性和分析任务的目标。实践中,通常建议尝试多种聚类算法和参数配置,然后根据聚类的质量(例如,通过轮廓系数评估)来选择最佳的方法
# M. G) Y) U* K. Y
& R0 i! }. b- G" M+ p
7 R1 R) `; g* {- c3 e, ^% n1 n$ Z4 w& ]# n' y2 \$ d, U, @
zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-6-15 04:03 , Processed in 0.664639 second(s), 51 queries .

回顶部