QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1787|回复: 0
打印 上一主题 下一主题

无监督学习练习 对客户进行分组

[复制链接]
字体大小: 正常 放大

1189

主题

4

听众

2934

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-31 16:38 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
  • 客户细分(K-均值聚类)
    • 数据集:使用任何公开的客户数据集,如零售数据。
    • 任务:根据购买行为对客户进行分组。
    • 挑战:尝试不同的聚类算法(如DBSCAN、层次聚类)和调整参数来找到最佳的客户分组。
      ; K) w) ?  {) L0 \

    * J5 j" O3 n! \
使用KMeans进行客户细分
  1. from sklearn.cluster import KMeans* l4 t! K0 {, J' i) A  }
  2. from sklearn.preprocessing import StandardScaler) z+ z% X# l, I) `5 p( y
  3. import pandas as pd) B- \5 j3 J$ v# S: C
  4. 9 P! Z: J  ?; z! E1 o; o# ?
  5. # 加载客户数据集, E' x0 a7 S5 N
  6. # 假设df是一个Pandas DataFrame,包含了你感兴趣的特征5 {8 z' d% \3 e0 @0 \
  7. # df = pd.read_csv('your_customer_data.csv'); Q\" G  I8 ]' X7 G\" }! j) N
  8. % u3 D  n. Z$ c* [
  9. # 对数据进行标准化处理
    0 R6 F: S, d$ o
  10. scaler = StandardScaler()
    \" F1 L1 T* D9 ?7 R' M& a
  11. scaled_features = scaler.fit_transform(df)
    6 n) w' \) ]; Q& w- C  `# Y
  12.   U0 s( D5 ^& V1 j\" c+ @$ u
  13. # 使用KMeans进行聚类4 t/ R0 V$ e+ y$ q: G  }; [\" u; C
  14. kmeans = KMeans(n_clusters=5, random_state=42), l3 h8 _\" l5 x. D# Y6 e
  15. kmeans.fit(scaled_features)% d0 z4 {7 Z! V5 [. s% b$ P
  16. / i, ]2 M9 u9 G. B* s
  17. # 将聚类结果添加到原始DataFrame中
    \" p7 [. Q. Q0 @$ B5 ?! L
  18. df['Cluster'] = kmeans.labels_
    ! U9 {0 y3 x  F0 B' y1 Y' d+ s

  19. 4 ^, c$ ]/ G# r: r7 ]( v\" O+ m
  20. # 查看聚类结果# x$ }2 z) v% k4 F+ P3 _0 _3 l\" r
  21. print(df.head())
复制代码

在这个示例中,我们首先对特征进行了标准化处理,这是聚类分析中的一个常见步骤,以确保所有特征在相同的尺度上。然后,我们使用KMeans算法对客户进行了分组,这里假设我们想要将客户分成5个群体。

尝试其他聚类算法DBSCAN
  1. from sklearn.cluster import DBSCAN/ F1 Y  g. s. V5 U  s  ]% K\" x9 C4 ~2 g

  2. 9 D' [/ n7 l5 y  S) f. S: `0 l
  3. # 使用DBSCAN进行聚类
    / J0 ?7 K6 s' V0 j
  4. dbscan = DBSCAN(eps=0.5, min_samples=5)
    * ]3 K9 p: y# H! `- \
  5. df['Cluster'] = dbscan.fit_predict(scaled_features), e2 B% ^# i9 c: e  i; b0 I. j
  6. 8 Y9 n/ N, `  f
  7. # 查看聚类结果
    0 G  h$ h. l+ h% t! J4 q6 r* z# O' l
  8. print(df.head())
复制代码
层次聚类
  1. from sklearn.cluster import AgglomerativeClustering' A, A. p8 T$ _3 E

  2. 1 h& @. I/ d9 D7 r, S1 e% p/ H
  3. # 使用层次聚类进行聚类
    1 V. }5 ~8 _6 n' c: Z- B& `* b' Y
  4. agg_clustering = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward')( E( p4 P1 K6 T6 l2 x5 d& u  w3 R, [
  5. df['Cluster'] = agg_clustering.fit_predict(scaled_features)
    5 T9 Z& ~1 _' C) {! A' R& k8 ^# ?

  6. 8 i* A% @. ^8 T8 L/ F; v# t
  7. # 查看聚类结果
    ( i7 H. |2 U4 E$ `7 e( ~
  8. print(df.head())
复制代码
调整参数和选择算法
" O, f4 z5 t+ I8 MKMeans:n_clusters是一个关键参数,决定了聚类的数量。可以使用轮廓分析或肘方法来帮助确定最佳的聚类数量。! f! L; b9 y) t( \- V+ ]
DBSCAN:eps和min_samples是关键参数,分别决定了样本成为核心点的条件。这些参数对结果的影响较大,通常需要通过尝试不同的值来找到最佳的参数设置。- O+ m! ^" U3 E" O; q
层次聚类:n_clusters、affinity和linkage是重要的参数,它们分别控制聚类的数量、用于计算距离的方法和聚类合并的准则。2 J+ \0 B8 \5 }# ]) ~
选择哪种聚类算法以及相应的参数设置,取决于数据集的特性和分析任务的目标。实践中,通常建议尝试多种聚类算法和参数配置,然后根据聚类的质量(例如,通过轮廓系数评估)来选择最佳的方法
0 A. \, X' V8 U) o
7 j9 b# ^4 V7 k1 F6 Z0 c' Z* S% e: j5 r  j% J6 C( c* @
8 T2 r+ [% M. V, ?! y, F' i
zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-6-14 14:16 , Processed in 0.341071 second(s), 51 queries .

回顶部