QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1786|回复: 0
打印 上一主题 下一主题

无监督学习练习 对客户进行分组

[复制链接]
字体大小: 正常 放大

1189

主题

4

听众

2934

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-31 16:38 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
  • 客户细分(K-均值聚类)
    • 数据集:使用任何公开的客户数据集,如零售数据。
    • 任务:根据购买行为对客户进行分组。
    • 挑战:尝试不同的聚类算法(如DBSCAN、层次聚类)和调整参数来找到最佳的客户分组。$ k3 V. }8 r9 V" n
    $ |6 v+ E7 \" \5 C5 z
使用KMeans进行客户细分
  1. from sklearn.cluster import KMeans' P7 o9 d7 f% _& w, F1 |1 U
  2. from sklearn.preprocessing import StandardScaler
    ( k1 v2 ~: m! p$ T- O* B
  3. import pandas as pd
    $ J4 F( B  _5 M9 m* E

  4. . c# B5 T6 P/ b) i2 R2 |/ T! m
  5. # 加载客户数据集
    ; e4 \+ m+ k# e1 Z& b0 ]# Y
  6. # 假设df是一个Pandas DataFrame,包含了你感兴趣的特征
    ' P. ~\" `- g9 ], D1 [/ C! C: N
  7. # df = pd.read_csv('your_customer_data.csv')
    ! f5 `# o\" Q6 C7 Q# G

  8. % Z+ B2 I$ y1 O& B' t# u
  9. # 对数据进行标准化处理1 X6 A( {  `- U\" l
  10. scaler = StandardScaler()
    4 ~: Z+ W2 c4 T! ~( n
  11. scaled_features = scaler.fit_transform(df)/ D6 n% ?* Z\" q

  12. ! w- U. \/ G7 z# a2 c( C) o
  13. # 使用KMeans进行聚类- e! H; ~) d  _
  14. kmeans = KMeans(n_clusters=5, random_state=42)
    # V/ Q& v' E* E  J6 x& d/ o/ o4 E
  15. kmeans.fit(scaled_features)+ L\" |  {1 ^+ X+ Q; Z

  16. 8 G5 R. I, p) Y' i& T$ f
  17. # 将聚类结果添加到原始DataFrame中8 d- B: L$ f7 y1 q0 Z
  18. df['Cluster'] = kmeans.labels_
    ( z2 i) q- h: O: c0 x
  19. . |8 C- u  z! ^' p% p) f
  20. # 查看聚类结果
    7 {: O2 U7 Q$ w  ~\" Z) `
  21. print(df.head())
复制代码

在这个示例中,我们首先对特征进行了标准化处理,这是聚类分析中的一个常见步骤,以确保所有特征在相同的尺度上。然后,我们使用KMeans算法对客户进行了分组,这里假设我们想要将客户分成5个群体。

尝试其他聚类算法DBSCAN
  1. from sklearn.cluster import DBSCAN+ O+ \2 A, V; I\" V' u
  2. # A: w. ]% |7 J
  3. # 使用DBSCAN进行聚类5 h3 @' |& E( b% O. K
  4. dbscan = DBSCAN(eps=0.5, min_samples=5)
    $ M& L$ g1 ]% }+ v# K/ N
  5. df['Cluster'] = dbscan.fit_predict(scaled_features)
    # j4 A! ?( k  y
  6. 8 L\" ~\" {& T: O2 J
  7. # 查看聚类结果
    1 h4 D( Z- u* k$ q
  8. print(df.head())
复制代码
层次聚类
  1. from sklearn.cluster import AgglomerativeClustering
    \" _* l5 u* B+ v* Y/ v8 a

  2. / g6 k4 V- M) [7 X4 w  R
  3. # 使用层次聚类进行聚类
    \" w7 {; N- F1 w
  4. agg_clustering = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward')
    7 i  i+ S# L+ F- T, L' N
  5. df['Cluster'] = agg_clustering.fit_predict(scaled_features)
    ( A5 ?: ]) Q* z. s\" X& R; u, r
  6. 0 T; L1 e% D& {5 r
  7. # 查看聚类结果
    5 o- r2 N, h2 Z& Z
  8. print(df.head())
复制代码
调整参数和选择算法
. |: C$ L0 S; H" ]KMeans:n_clusters是一个关键参数,决定了聚类的数量。可以使用轮廓分析或肘方法来帮助确定最佳的聚类数量。
0 ~# K- W* O- g4 d6 FDBSCAN:eps和min_samples是关键参数,分别决定了样本成为核心点的条件。这些参数对结果的影响较大,通常需要通过尝试不同的值来找到最佳的参数设置。; B: m4 e: M" p8 R0 a: b9 H
层次聚类:n_clusters、affinity和linkage是重要的参数,它们分别控制聚类的数量、用于计算距离的方法和聚类合并的准则。
, D- W, Z9 K2 l选择哪种聚类算法以及相应的参数设置,取决于数据集的特性和分析任务的目标。实践中,通常建议尝试多种聚类算法和参数配置,然后根据聚类的质量(例如,通过轮廓系数评估)来选择最佳的方法3 G7 a9 X3 m( Z' @5 Y$ v  }

2 q# P8 I6 ?5 w8 R5 w* |" D* h) m  p
* ], ]; C7 n' Q
4 Z6 J% e+ Q0 M  M
zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-6-12 15:26 , Processed in 0.367733 second(s), 51 queries .

回顶部