QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1723|回复: 0
打印 上一主题 下一主题

无监督学习练习 对客户进行分组

[复制链接]
字体大小: 正常 放大

1186

主题

4

听众

2922

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-31 16:38 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
  • 客户细分(K-均值聚类)
    • 数据集:使用任何公开的客户数据集,如零售数据。
    • 任务:根据购买行为对客户进行分组。
    • 挑战:尝试不同的聚类算法(如DBSCAN、层次聚类)和调整参数来找到最佳的客户分组。
      3 g- i( P( B. l) L" s! d

    / ]! L- H1 r' t# c- |$ x
使用KMeans进行客户细分
  1. from sklearn.cluster import KMeans
      @4 \7 o  E\" N2 a5 K4 Z. C2 W
  2. from sklearn.preprocessing import StandardScaler\" c# d) A9 w3 H' [1 H
  3. import pandas as pd
    7 ?7 ^7 s' [/ T0 D& i0 ]+ q
  4. ! b8 n1 k% n% N
  5. # 加载客户数据集! J3 h% J0 z1 C4 |1 l! u
  6. # 假设df是一个Pandas DataFrame,包含了你感兴趣的特征0 ?% Z& l$ b. d  s- t. `' w# x
  7. # df = pd.read_csv('your_customer_data.csv')
    $ i4 A6 m0 U1 U, N
  8. 5 i$ b& Z0 J' m9 J2 n' w) o) \  ^
  9. # 对数据进行标准化处理( w7 \. q& U) x( v( F4 G1 |\" M
  10. scaler = StandardScaler()
    ; B7 ?  a2 |7 t7 v7 {8 D8 Z6 e\" F1 E
  11. scaled_features = scaler.fit_transform(df)1 A3 ~3 c9 D4 x. h

  12. ( `2 f$ k. O$ e. G+ a; k
  13. # 使用KMeans进行聚类
    & h/ n4 l# B/ A5 u; F) E
  14. kmeans = KMeans(n_clusters=5, random_state=42)
    & A$ ?1 ^: n7 K' N
  15. kmeans.fit(scaled_features)8 e) R\" G, N7 |2 y1 S9 m3 j

  16. ) O$ C! n6 Y6 `& w
  17. # 将聚类结果添加到原始DataFrame中
    9 Z6 ]2 c( ]5 g  X' K0 X8 @
  18. df['Cluster'] = kmeans.labels_
    2 _* o) V7 \4 r* e0 K
  19. 5 A7 l& c4 b6 W4 A4 s
  20. # 查看聚类结果
    9 v/ w. m9 T, u8 M% D
  21. print(df.head())
复制代码

在这个示例中,我们首先对特征进行了标准化处理,这是聚类分析中的一个常见步骤,以确保所有特征在相同的尺度上。然后,我们使用KMeans算法对客户进行了分组,这里假设我们想要将客户分成5个群体。

尝试其他聚类算法DBSCAN
  1. from sklearn.cluster import DBSCAN
    / B8 r) j# Q3 k. g! l( ~
  2. \" k0 N3 p, T$ H9 M
  3. # 使用DBSCAN进行聚类$ i) q) f* p$ Z  u
  4. dbscan = DBSCAN(eps=0.5, min_samples=5)
    , z  l+ Y6 ^+ P5 d/ ~- c
  5. df['Cluster'] = dbscan.fit_predict(scaled_features)
    \" M* @& C! k5 T

  6. 8 E% v+ c  V  g/ \
  7. # 查看聚类结果5 V5 z+ F! b& v9 {' q
  8. print(df.head())
复制代码
层次聚类
  1. from sklearn.cluster import AgglomerativeClustering
    ( C- f1 O7 e! S\" c

  2. 8 Z* {- \& l\" M8 f5 j
  3. # 使用层次聚类进行聚类
    ) R4 E) M% l. a3 `
  4. agg_clustering = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward')7 ^1 H7 |  g: w  |
  5. df['Cluster'] = agg_clustering.fit_predict(scaled_features)
    # ], v. u$ Q0 p\" E8 q9 d
  6. + M6 H+ o# A2 i
  7. # 查看聚类结果6 T2 Y( P' T1 v- T
  8. print(df.head())
复制代码
调整参数和选择算法# g- ?7 Z4 h6 O/ r9 h1 M2 V. L
KMeans:n_clusters是一个关键参数,决定了聚类的数量。可以使用轮廓分析或肘方法来帮助确定最佳的聚类数量。
- U4 i- Q/ q4 p* I( HDBSCAN:eps和min_samples是关键参数,分别决定了样本成为核心点的条件。这些参数对结果的影响较大,通常需要通过尝试不同的值来找到最佳的参数设置。! L' v7 ^  s( n
层次聚类:n_clusters、affinity和linkage是重要的参数,它们分别控制聚类的数量、用于计算距离的方法和聚类合并的准则。( W) S) U, T" Y# F1 u! ~- T( C
选择哪种聚类算法以及相应的参数设置,取决于数据集的特性和分析任务的目标。实践中,通常建议尝试多种聚类算法和参数配置,然后根据聚类的质量(例如,通过轮廓系数评估)来选择最佳的方法1 H9 W0 p8 k) ?0 K; h8 L+ F

7 y- j* z$ l1 l/ F3 m9 h
: v  M* w/ B% \5 t0 ^0 r& l1 R* {* c5 Q, e% V4 {) P, ?
zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-4-10 17:09 , Processed in 1.031221 second(s), 51 queries .

回顶部