QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1782|回复: 0
打印 上一主题 下一主题

无监督学习练习 对客户进行分组

[复制链接]
字体大小: 正常 放大

1189

主题

4

听众

2934

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-31 16:38 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
  • 客户细分(K-均值聚类)
    • 数据集:使用任何公开的客户数据集,如零售数据。
    • 任务:根据购买行为对客户进行分组。
    • 挑战:尝试不同的聚类算法(如DBSCAN、层次聚类)和调整参数来找到最佳的客户分组。
      7 S* |# o: [0 s: {; c/ D, m

    % m" q/ m" G$ U8 n/ a
使用KMeans进行客户细分
  1. from sklearn.cluster import KMeans
    ! D\" d2 e. u\" @
  2. from sklearn.preprocessing import StandardScaler
    3 ]5 s5 l& G. k5 Z
  3. import pandas as pd
    * F9 A# m% b6 c6 ~
  4.   d0 d9 Q8 Q\" x& Q, n+ V
  5. # 加载客户数据集9 S$ ?1 ]# S4 h5 d' s3 i
  6. # 假设df是一个Pandas DataFrame,包含了你感兴趣的特征
    0 W; D* j! k# w
  7. # df = pd.read_csv('your_customer_data.csv')
    . b( x( K! x6 s) u) ~% u

  8. * X, s: `( I' b% ~  O8 ^; K
  9. # 对数据进行标准化处理
    - H' {; ]5 N3 ^; r' p$ p
  10. scaler = StandardScaler()3 r# R0 [- q$ m9 a$ D' e
  11. scaled_features = scaler.fit_transform(df)
      \* i( f2 ?! `% ?8 j3 n: h6 g, H

  12. 1 r, V% o9 w; M7 k* h' W
  13. # 使用KMeans进行聚类# H8 K4 c2 ~2 t3 ~$ n& ~
  14. kmeans = KMeans(n_clusters=5, random_state=42)
    % b* p5 t1 O, h& y& C
  15. kmeans.fit(scaled_features)
    & P% x+ I6 C0 `' w3 g9 O
  16. 6 e1 f: u& M6 l# _3 Q
  17. # 将聚类结果添加到原始DataFrame中) O# v0 K3 l' u3 [4 K( C' ]
  18. df['Cluster'] = kmeans.labels_- C4 x\" k3 V& D( m. e: c

  19. 0 {$ j$ p) Z, Z+ m, |* K
  20. # 查看聚类结果
    ( N  l  O. v1 y! z/ x
  21. print(df.head())
复制代码

在这个示例中,我们首先对特征进行了标准化处理,这是聚类分析中的一个常见步骤,以确保所有特征在相同的尺度上。然后,我们使用KMeans算法对客户进行了分组,这里假设我们想要将客户分成5个群体。

尝试其他聚类算法DBSCAN
  1. from sklearn.cluster import DBSCAN
    2 F, W& g& F' G: y
  2.   y: N2 o' u: m
  3. # 使用DBSCAN进行聚类
    ' A6 x, r0 L1 P5 ]
  4. dbscan = DBSCAN(eps=0.5, min_samples=5)( A\" J( {: X  ?/ b$ i
  5. df['Cluster'] = dbscan.fit_predict(scaled_features)( G6 @9 z: }4 N: L
  6. ! ^* E3 j: ?4 G' g8 F2 ?' t+ W$ E
  7. # 查看聚类结果
    ! x8 S( `5 L) L
  8. print(df.head())
复制代码
层次聚类
  1. from sklearn.cluster import AgglomerativeClustering9 O; N0 X9 T% Y7 t2 n0 U
  2. 5 y& I: s  e9 i  W9 J  R9 S! b! \! R
  3. # 使用层次聚类进行聚类
    , C7 W' U! q5 ]3 N4 Q% G
  4. agg_clustering = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward')
    ; f' f: C$ o! {6 t  L0 b5 p
  5. df['Cluster'] = agg_clustering.fit_predict(scaled_features)
    & U6 d# s0 \3 e
  6. 0 V4 J; v6 [, G
  7. # 查看聚类结果
    : A% [3 z\" B& [2 ~% M
  8. print(df.head())
复制代码
调整参数和选择算法
' i" C* E& f$ [) s. \; Q# [1 u5 U* F6 uKMeans:n_clusters是一个关键参数,决定了聚类的数量。可以使用轮廓分析或肘方法来帮助确定最佳的聚类数量。
8 P+ p: w- V6 v8 c) y/ ^DBSCAN:eps和min_samples是关键参数,分别决定了样本成为核心点的条件。这些参数对结果的影响较大,通常需要通过尝试不同的值来找到最佳的参数设置。( y1 y* W4 m! P' t
层次聚类:n_clusters、affinity和linkage是重要的参数,它们分别控制聚类的数量、用于计算距离的方法和聚类合并的准则。) }) K; b7 P1 E
选择哪种聚类算法以及相应的参数设置,取决于数据集的特性和分析任务的目标。实践中,通常建议尝试多种聚类算法和参数配置,然后根据聚类的质量(例如,通过轮廓系数评估)来选择最佳的方法
# e% J+ E3 n' o: l. S& d' |; y1 F7 }
, f/ u  U2 L8 \7 w! l
! v" g7 n2 X9 y& c! ]; t
8 r* w* V7 L, v4 ?. q6 ?! L
zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-6-11 02:24 , Processed in 0.385789 second(s), 51 queries .

回顶部