QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1729|回复: 0
打印 上一主题 下一主题

无监督学习练习 对客户进行分组

[复制链接]
字体大小: 正常 放大

1186

主题

4

听众

2922

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-31 16:38 |只看该作者 |正序浏览
|招呼Ta 关注Ta
  • 客户细分(K-均值聚类)
    • 数据集:使用任何公开的客户数据集,如零售数据。
    • 任务:根据购买行为对客户进行分组。
    • 挑战:尝试不同的聚类算法(如DBSCAN、层次聚类)和调整参数来找到最佳的客户分组。, ]! N0 z- O7 n. v9 P& _, j
      z; e2 n% u/ s+ s& b, S
使用KMeans进行客户细分
  1. from sklearn.cluster import KMeans3 Q9 k; K$ P* N: V$ H
  2. from sklearn.preprocessing import StandardScaler1 g. N! ~& ]' @4 n  Z& H
  3. import pandas as pd
    \" b  j9 [4 u# _5 g9 f# t

  4. 2 m' {8 i- A3 {' z3 M
  5. # 加载客户数据集
    ; Z: W8 c/ ]; b  N
  6. # 假设df是一个Pandas DataFrame,包含了你感兴趣的特征
    . O; J; [1 G, s( ^( ^: S
  7. # df = pd.read_csv('your_customer_data.csv')
    ' i$ `; g8 |, k( f& R

  8. 4 z; c6 @: ?) Q: S; v: R# Q3 P
  9. # 对数据进行标准化处理8 ~* }9 Y+ x3 |* W* S! N! i6 K
  10. scaler = StandardScaler()
    6 V' S1 M4 V3 A9 A) l* W
  11. scaled_features = scaler.fit_transform(df)0 e+ t4 @/ K, a# C2 Q  m% |
  12. . n' Y7 _- C+ u; F# i* ^/ a\" d0 _3 G
  13. # 使用KMeans进行聚类5 V* l: |1 K+ d, i\" p) P
  14. kmeans = KMeans(n_clusters=5, random_state=42)- T  {: x% w' x0 _) e9 A2 ~* a
  15. kmeans.fit(scaled_features)
    - \. z5 p6 X0 \
  16. ( q( N3 k7 _% P9 I. R4 o5 w) L2 f
  17. # 将聚类结果添加到原始DataFrame中
    ) }7 Z. z8 z2 B* Y# ]
  18. df['Cluster'] = kmeans.labels_% E# i6 }. m! n9 o8 c  F/ `- w

  19. , W8 Y, n/ B\" p' ?2 |: M
  20. # 查看聚类结果
    0 U% n+ _7 B4 ?\" b. U7 V5 J- x
  21. print(df.head())
复制代码

在这个示例中,我们首先对特征进行了标准化处理,这是聚类分析中的一个常见步骤,以确保所有特征在相同的尺度上。然后,我们使用KMeans算法对客户进行了分组,这里假设我们想要将客户分成5个群体。

尝试其他聚类算法DBSCAN
  1. from sklearn.cluster import DBSCAN
    . n, S6 i% `+ p; k  n& c. e

  2. & D6 v' f# `/ ~7 i1 n
  3. # 使用DBSCAN进行聚类
    8 R3 L- y7 M) a- C/ {! M
  4. dbscan = DBSCAN(eps=0.5, min_samples=5)
    , _: X: K6 U* `' u
  5. df['Cluster'] = dbscan.fit_predict(scaled_features)! H9 A+ w1 n& k. B: S
  6. / l7 p$ A\" o' N. s9 u4 s
  7. # 查看聚类结果
    4 C% n7 R# n1 k) k! [, h' v) V5 {
  8. print(df.head())
复制代码
层次聚类
  1. from sklearn.cluster import AgglomerativeClustering
    + e0 x0 E6 }' t4 Y7 J3 n

  2. + n+ r' C% j0 g
  3. # 使用层次聚类进行聚类
    9 `! O( p$ p% |. U$ Y, k3 E: j+ X
  4. agg_clustering = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward')- Q& g* {+ h, a) G8 i
  5. df['Cluster'] = agg_clustering.fit_predict(scaled_features)
    * @9 u& c5 P5 {+ N6 ?

  6. 1 q! F! }; z4 p! q( P
  7. # 查看聚类结果: B! H, s0 M8 o' r3 m
  8. print(df.head())
复制代码
调整参数和选择算法
4 r4 R2 y* \, J" F8 l" S# n# hKMeans:n_clusters是一个关键参数,决定了聚类的数量。可以使用轮廓分析或肘方法来帮助确定最佳的聚类数量。  o! O* g" ]& ~" U, s2 F
DBSCAN:eps和min_samples是关键参数,分别决定了样本成为核心点的条件。这些参数对结果的影响较大,通常需要通过尝试不同的值来找到最佳的参数设置。
; a2 J  c# Y' r层次聚类:n_clusters、affinity和linkage是重要的参数,它们分别控制聚类的数量、用于计算距离的方法和聚类合并的准则。
" ?1 e* q) g1 h* ?选择哪种聚类算法以及相应的参数设置,取决于数据集的特性和分析任务的目标。实践中,通常建议尝试多种聚类算法和参数配置,然后根据聚类的质量(例如,通过轮廓系数评估)来选择最佳的方法; ]' S! B+ e" T! {- E! ~. ]; [: ?
2 o- k+ [6 r1 o6 q
' V: u2 u/ R, n9 d

' A& Y: G5 W) S6 Q& b$ ^, N/ F
zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-4-13 06:34 , Processed in 0.412906 second(s), 52 queries .

回顶部