QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1724|回复: 0
打印 上一主题 下一主题

无监督学习练习 对客户进行分组

[复制链接]
字体大小: 正常 放大

1186

主题

4

听众

2922

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-31 16:38 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
  • 客户细分(K-均值聚类)
    • 数据集:使用任何公开的客户数据集,如零售数据。
    • 任务:根据购买行为对客户进行分组。
    • 挑战:尝试不同的聚类算法(如DBSCAN、层次聚类)和调整参数来找到最佳的客户分组。) f. k4 T8 O+ w
    0 T! v% R( G+ V: I  F/ Q  k) X9 X
使用KMeans进行客户细分
  1. from sklearn.cluster import KMeans- I: F2 P' @! \! T' e* ^
  2. from sklearn.preprocessing import StandardScaler
    7 O3 ?4 K4 g3 [3 X% r) u+ L& t
  3. import pandas as pd
    : M$ |) |9 b, r3 O\" [

  4. ' F/ B& ~% l# E% J! Y- |
  5. # 加载客户数据集
    0 X) G6 C! Q  @4 @: @6 `5 k: H
  6. # 假设df是一个Pandas DataFrame,包含了你感兴趣的特征
    - \. d4 `5 e* E% n  n
  7. # df = pd.read_csv('your_customer_data.csv')2 e+ ]\" Q: K, y% O- M
  8. 2 O  }. ^4 I# {- e9 k6 d/ U
  9. # 对数据进行标准化处理
    % j. U: o. r& d6 B5 v( ~, o) X/ f: t
  10. scaler = StandardScaler()
    \" U- C+ s8 `/ m2 t6 }; F
  11. scaled_features = scaler.fit_transform(df)
    3 e5 x  y' @\" X\" }- E$ i  H- U
  12. 1 H) h- J8 ?& b4 u6 O  }6 ~3 ^, [
  13. # 使用KMeans进行聚类1 e! u* j4 ?1 U) i
  14. kmeans = KMeans(n_clusters=5, random_state=42)1 T+ W2 K) a6 m% d  @
  15. kmeans.fit(scaled_features)
    7 V! @# o- y: w4 [2 B\" a

  16. ; D; H% U2 q( B- h7 P3 Z& ~
  17. # 将聚类结果添加到原始DataFrame中
    2 Y- U, _/ P: j+ T8 u; r
  18. df['Cluster'] = kmeans.labels_5 M3 c6 M7 |  I\" H% l\" r  i3 ~\" {2 T

  19. 8 `5 ^0 K* Q0 x  m. x5 X- y$ d
  20. # 查看聚类结果: W, E3 }' C& E\" ?; c
  21. print(df.head())
复制代码

在这个示例中,我们首先对特征进行了标准化处理,这是聚类分析中的一个常见步骤,以确保所有特征在相同的尺度上。然后,我们使用KMeans算法对客户进行了分组,这里假设我们想要将客户分成5个群体。

尝试其他聚类算法DBSCAN
  1. from sklearn.cluster import DBSCAN
    8 L' k  @7 S/ i+ G0 h$ [2 E
  2. 9 }  G1 T/ V; H1 [
  3. # 使用DBSCAN进行聚类; s$ ^0 r' T% x. |# g' Q
  4. dbscan = DBSCAN(eps=0.5, min_samples=5)
    # a$ o/ D1 D6 W; T& H. g& d
  5. df['Cluster'] = dbscan.fit_predict(scaled_features)8 _$ |. H& ]3 C  N, e

  6. ' ~' Q\" r+ d* V2 C# d# q- l
  7. # 查看聚类结果
    1 \1 n1 i' f4 R: t# ~6 {6 c
  8. print(df.head())
复制代码
层次聚类
  1. from sklearn.cluster import AgglomerativeClustering
    6 A$ F+ f  Y7 k$ Y  g; }  @
  2. ; k0 \! ^8 z$ L- Y
  3. # 使用层次聚类进行聚类  `3 j* ]9 G0 V7 t
  4. agg_clustering = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward')
    ( H+ r8 ]+ Q) o% j/ _; s
  5. df['Cluster'] = agg_clustering.fit_predict(scaled_features)
    * \5 p3 z( K! ?  X7 Y7 G8 u
  6. 8 M% \  q' j% k5 b  o
  7. # 查看聚类结果
    0 M# R- j2 x, X' a5 }* E8 f
  8. print(df.head())
复制代码
调整参数和选择算法
$ K( ^2 i! i9 E7 u8 S+ BKMeans:n_clusters是一个关键参数,决定了聚类的数量。可以使用轮廓分析或肘方法来帮助确定最佳的聚类数量。
1 G  h5 V: R+ o. v# W2 j/ KDBSCAN:eps和min_samples是关键参数,分别决定了样本成为核心点的条件。这些参数对结果的影响较大,通常需要通过尝试不同的值来找到最佳的参数设置。
8 q3 H( ~& c, z层次聚类:n_clusters、affinity和linkage是重要的参数,它们分别控制聚类的数量、用于计算距离的方法和聚类合并的准则。  W  B4 z" ~* b# k* y8 \- C
选择哪种聚类算法以及相应的参数设置,取决于数据集的特性和分析任务的目标。实践中,通常建议尝试多种聚类算法和参数配置,然后根据聚类的质量(例如,通过轮廓系数评估)来选择最佳的方法
9 Z% j8 M% F- \4 Z& W2 b6 M3 N6 F1 `# n% j
: M3 `/ X  u. X* ]0 P

' j8 o; M- p) d9 b
zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-4-10 20:53 , Processed in 2.435654 second(s), 51 queries .

回顶部