QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1735|回复: 0
打印 上一主题 下一主题

无监督学习练习 对客户进行分组

[复制链接]
字体大小: 正常 放大

1186

主题

4

听众

2922

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-31 16:38 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
  • 客户细分(K-均值聚类)
    • 数据集:使用任何公开的客户数据集,如零售数据。
    • 任务:根据购买行为对客户进行分组。
    • 挑战:尝试不同的聚类算法(如DBSCAN、层次聚类)和调整参数来找到最佳的客户分组。( K9 A% V, J1 P6 s2 E# N$ C& K

    1 f% x" s! @% s. h2 H: w
使用KMeans进行客户细分
  1. from sklearn.cluster import KMeans
    3 e/ c' c* Z, L3 V
  2. from sklearn.preprocessing import StandardScaler% ~- V6 T  i% I* G
  3. import pandas as pd
    ( c* ?1 l& A2 p5 J

  4. 6 `1 q\" q* v, Z. f0 i' Y
  5. # 加载客户数据集
    3 u. [7 B' e% z3 o- R
  6. # 假设df是一个Pandas DataFrame,包含了你感兴趣的特征
    : k5 T, H\" K; n+ [
  7. # df = pd.read_csv('your_customer_data.csv')6 p: f2 B- f3 m6 r, X7 L4 g
  8. / i  z& M\" p6 q0 Q3 b6 ~  m$ y
  9. # 对数据进行标准化处理
    8 Y2 @- c: ], G$ D2 l$ c5 D
  10. scaler = StandardScaler()! S9 d+ W  Y: T  X6 j3 _2 [
  11. scaled_features = scaler.fit_transform(df)2 d3 t7 C: z8 y# g4 j$ t* `

  12. , }# [$ G0 q% p: ~& k& f, L8 C
  13. # 使用KMeans进行聚类2 T6 {( F: p# L9 x% b6 J
  14. kmeans = KMeans(n_clusters=5, random_state=42)  o$ t4 m1 X5 ?\" F7 W
  15. kmeans.fit(scaled_features)
    8 Z+ ?4 ^$ m# c9 g7 t/ {9 Q: [
  16. * e1 R' ?6 S5 O1 l4 B9 z6 O. `
  17. # 将聚类结果添加到原始DataFrame中1 L/ y* i# ~* }% R, T' \) F
  18. df['Cluster'] = kmeans.labels_
    0 y% e8 F( O# V$ S. W; h3 c% k  U

  19. # w, z$ p9 G2 x2 C) F( l) m
  20. # 查看聚类结果
    # C# B$ r. l& V) D* R
  21. print(df.head())
复制代码

在这个示例中,我们首先对特征进行了标准化处理,这是聚类分析中的一个常见步骤,以确保所有特征在相同的尺度上。然后,我们使用KMeans算法对客户进行了分组,这里假设我们想要将客户分成5个群体。

尝试其他聚类算法DBSCAN
  1. from sklearn.cluster import DBSCAN
    , L% X+ d3 c+ ^% `

  2. ( q\" {9 ?2 [- h5 M
  3. # 使用DBSCAN进行聚类
    2 _; u. c+ m9 i6 u
  4. dbscan = DBSCAN(eps=0.5, min_samples=5)- r0 L$ h* D( s6 x
  5. df['Cluster'] = dbscan.fit_predict(scaled_features)
    0 h  K7 s4 L' a, p/ R; E
  6. : o0 g+ C9 C1 J+ F1 w- {7 i
  7. # 查看聚类结果0 [* Y# E- r+ a9 t6 G, W0 \6 k, T
  8. print(df.head())
复制代码
层次聚类
  1. from sklearn.cluster import AgglomerativeClustering
    2 ]3 {! t' `% X. m
  2. : H2 D/ h) @3 a/ T\" p
  3. # 使用层次聚类进行聚类
    $ d) T7 W. ~  L) E\" M: _
  4. agg_clustering = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward'). {3 y2 h& Z& k8 l. {
  5. df['Cluster'] = agg_clustering.fit_predict(scaled_features)
    1 u  J# _8 x% H, E0 K. v
  6. . S/ K% J. b/ J
  7. # 查看聚类结果\" t\" o; S' I; O4 q' Y: N1 y
  8. print(df.head())
复制代码
调整参数和选择算法7 Y  H7 o/ {# o7 @- A7 A- B6 D- J
KMeans:n_clusters是一个关键参数,决定了聚类的数量。可以使用轮廓分析或肘方法来帮助确定最佳的聚类数量。
: [2 |9 X7 s& B0 ]! c$ `1 DDBSCAN:eps和min_samples是关键参数,分别决定了样本成为核心点的条件。这些参数对结果的影响较大,通常需要通过尝试不同的值来找到最佳的参数设置。
8 @4 e1 r) y# i! ^9 I! r% w层次聚类:n_clusters、affinity和linkage是重要的参数,它们分别控制聚类的数量、用于计算距离的方法和聚类合并的准则。
0 m' [0 F! |+ k1 F* a' s/ {选择哪种聚类算法以及相应的参数设置,取决于数据集的特性和分析任务的目标。实践中,通常建议尝试多种聚类算法和参数配置,然后根据聚类的质量(例如,通过轮廓系数评估)来选择最佳的方法- M% s. C5 [; J( j3 o4 |. x
" x" c6 C. k1 P# Z+ j

  T/ B  Z7 F3 t- o# u) {5 h6 C# \& k1 ]2 D1 g6 ?2 |
zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-4-15 02:52 , Processed in 0.442055 second(s), 50 queries .

回顶部