QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1730|回复: 0
打印 上一主题 下一主题

无监督学习练习 对客户进行分组

[复制链接]
字体大小: 正常 放大

1186

主题

4

听众

2922

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-31 16:38 |只看该作者 |正序浏览
|招呼Ta 关注Ta
  • 客户细分(K-均值聚类)
    • 数据集:使用任何公开的客户数据集,如零售数据。
    • 任务:根据购买行为对客户进行分组。
    • 挑战:尝试不同的聚类算法(如DBSCAN、层次聚类)和调整参数来找到最佳的客户分组。9 S; [8 m* y) n) f% ]7 J
    3 Z6 s4 C$ B& J1 g
使用KMeans进行客户细分
  1. from sklearn.cluster import KMeans
    ! t7 C/ _2 D3 H
  2. from sklearn.preprocessing import StandardScaler! M5 ^! S# z4 i$ Q6 `
  3. import pandas as pd) X) Q- w( c0 K- [
  4.   N& z, I1 G$ @
  5. # 加载客户数据集
    . g- T) L7 n& J7 C
  6. # 假设df是一个Pandas DataFrame,包含了你感兴趣的特征
    8 q; o* e) Z* A$ g% m# @0 s
  7. # df = pd.read_csv('your_customer_data.csv')2 p6 o  o8 Z2 V' o+ U1 _
  8. 8 D% h: R( ?\" m% x% f
  9. # 对数据进行标准化处理, _/ _1 G! o* O: x! g
  10. scaler = StandardScaler()
    1 R( _4 O* D) L* M
  11. scaled_features = scaler.fit_transform(df)  n/ w7 K7 A/ T+ Z- A$ Y
  12. 1 i7 ?; e$ w4 q& U
  13. # 使用KMeans进行聚类% E- x$ J6 H\" E  x
  14. kmeans = KMeans(n_clusters=5, random_state=42)0 T! Z0 a. C1 c
  15. kmeans.fit(scaled_features)
      g0 `9 y9 I9 Q6 h, q$ m
  16. # k! P) i2 [7 e3 W
  17. # 将聚类结果添加到原始DataFrame中
    - [( j/ q( f' b2 v: t% v
  18. df['Cluster'] = kmeans.labels_
    . s, f6 ^- d. P\" I$ F* d. t
  19. ( L, v, J4 U5 H, R3 X( f8 d
  20. # 查看聚类结果
    \" L) y) {% g( d* K/ N
  21. print(df.head())
复制代码

在这个示例中,我们首先对特征进行了标准化处理,这是聚类分析中的一个常见步骤,以确保所有特征在相同的尺度上。然后,我们使用KMeans算法对客户进行了分组,这里假设我们想要将客户分成5个群体。

尝试其他聚类算法DBSCAN
  1. from sklearn.cluster import DBSCAN) D. a% s# U  A' g0 x. K! }
  2. 4 {; J) J6 W9 p# `; W' R
  3. # 使用DBSCAN进行聚类
    9 m7 s. ]; v! Y
  4. dbscan = DBSCAN(eps=0.5, min_samples=5)
    / i7 w/ V+ j/ C' s+ E- u1 j
  5. df['Cluster'] = dbscan.fit_predict(scaled_features)
    / K+ N+ |/ E9 ~9 A/ i& S5 h1 z/ X

  6. % v8 @( y7 n- m- d' b
  7. # 查看聚类结果/ l+ f* G* @/ D* Q4 N) n+ h
  8. print(df.head())
复制代码
层次聚类
  1. from sklearn.cluster import AgglomerativeClustering0 C, T& ^0 n( X
  2. : V  ]( k, V9 O! n, E' M
  3. # 使用层次聚类进行聚类
    , l) ?5 g! c  `9 c% T* w
  4. agg_clustering = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward')
    - K, x% M* [9 f, f5 `
  5. df['Cluster'] = agg_clustering.fit_predict(scaled_features)
    - z2 a: e4 X# r\" u

  6. / k- `8 G: d# u5 w. q$ F
  7. # 查看聚类结果! {\" p1 [( B7 U\" G7 b1 ^2 U
  8. print(df.head())
复制代码
调整参数和选择算法2 U) K  k" v4 c& k! p
KMeans:n_clusters是一个关键参数,决定了聚类的数量。可以使用轮廓分析或肘方法来帮助确定最佳的聚类数量。
4 v7 {: D3 w$ e! ?( ~$ DDBSCAN:eps和min_samples是关键参数,分别决定了样本成为核心点的条件。这些参数对结果的影响较大,通常需要通过尝试不同的值来找到最佳的参数设置。5 S. x6 V5 g% F* H0 I
层次聚类:n_clusters、affinity和linkage是重要的参数,它们分别控制聚类的数量、用于计算距离的方法和聚类合并的准则。
8 x' B: P+ t4 }4 a$ V选择哪种聚类算法以及相应的参数设置,取决于数据集的特性和分析任务的目标。实践中,通常建议尝试多种聚类算法和参数配置,然后根据聚类的质量(例如,通过轮廓系数评估)来选择最佳的方法
5 H. {* @# q* Q( |. g* @/ z. r0 V0 |
" ^% o  Q- e& L$ {8 Z3 b

/ M3 C! Q# G% F4 u- d# N
zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-4-13 08:50 , Processed in 0.430613 second(s), 52 queries .

回顶部