QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1731|回复: 0
打印 上一主题 下一主题

无监督学习练习 对客户进行分组

[复制链接]
字体大小: 正常 放大

1186

主题

4

听众

2922

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-31 16:38 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
  • 客户细分(K-均值聚类)
    • 数据集:使用任何公开的客户数据集,如零售数据。
    • 任务:根据购买行为对客户进行分组。
    • 挑战:尝试不同的聚类算法(如DBSCAN、层次聚类)和调整参数来找到最佳的客户分组。- s% |$ `. U- U- x% s

    ( X0 |' P" [' h
使用KMeans进行客户细分
  1. from sklearn.cluster import KMeans
    / H( [: H# c6 n9 X# N0 f5 v
  2. from sklearn.preprocessing import StandardScaler
    , E9 V, [8 R- y
  3. import pandas as pd
    & P* r5 W8 g# m7 b- w: x2 g' `

  4.   z3 S3 e/ m/ a. S; ~0 A
  5. # 加载客户数据集# r, X7 S) _1 ~7 X* m& X
  6. # 假设df是一个Pandas DataFrame,包含了你感兴趣的特征; i- l\" D; i1 ^& S
  7. # df = pd.read_csv('your_customer_data.csv')+ A- t: d( L( M: I% s  @
  8. 0 k! k6 x7 q6 O2 F  [/ ?& s
  9. # 对数据进行标准化处理& D2 V* h) D5 P% H' Z
  10. scaler = StandardScaler()- ]* i. S' I* w7 }6 B0 ?4 d3 h
  11. scaled_features = scaler.fit_transform(df)
    * p' V9 O! D$ k: L) O8 r' I
  12. 2 |8 w6 y, Q. e
  13. # 使用KMeans进行聚类4 U( O7 L, Y0 n3 O5 ~# J
  14. kmeans = KMeans(n_clusters=5, random_state=42)
    4 H/ [5 r, ]: R8 n0 K\" f9 E' S
  15. kmeans.fit(scaled_features); V9 y$ w  ~( f& v: y$ A
  16. , Q) _. E0 [8 }. G- l
  17. # 将聚类结果添加到原始DataFrame中
    % v; J) d2 f7 c) J
  18. df['Cluster'] = kmeans.labels_
    \" {4 a4 p% n$ D4 Z( I1 I

  19. 9 k( V/ |* y. X3 I* i  e  {9 q
  20. # 查看聚类结果  U  u2 I0 s1 A, n
  21. print(df.head())
复制代码

在这个示例中,我们首先对特征进行了标准化处理,这是聚类分析中的一个常见步骤,以确保所有特征在相同的尺度上。然后,我们使用KMeans算法对客户进行了分组,这里假设我们想要将客户分成5个群体。

尝试其他聚类算法DBSCAN
  1. from sklearn.cluster import DBSCAN
    7 s; ]* U1 `7 b' \2 {; r3 X
  2. 8 a/ k8 ?# l% o- p5 J' z- q' q6 a
  3. # 使用DBSCAN进行聚类
    ; u% ]4 g6 L% i4 `+ D
  4. dbscan = DBSCAN(eps=0.5, min_samples=5)& G1 y$ B% t+ E! _+ H/ I5 I
  5. df['Cluster'] = dbscan.fit_predict(scaled_features)
    \" j( {: {$ t' b, z2 n) {

  6. 2 M# U! R0 A4 L
  7. # 查看聚类结果
    2 ~+ e7 X+ M- R
  8. print(df.head())
复制代码
层次聚类
  1. from sklearn.cluster import AgglomerativeClustering2 g, n! t6 e. Y+ n* h3 p/ T

  2. ; f* O' r7 x5 x& o
  3. # 使用层次聚类进行聚类
    + `; S\" ~$ e0 }1 N3 i( p
  4. agg_clustering = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward')4 H  [+ {/ `) |) n( T' `
  5. df['Cluster'] = agg_clustering.fit_predict(scaled_features)
    - v! G; B$ `& A$ Q/ p9 k. e( E( L8 E

  6. 6 {2 g* ~( }- T& k8 d' v  |& T
  7. # 查看聚类结果. g* \1 v( g0 M6 x$ h/ A
  8. print(df.head())
复制代码
调整参数和选择算法
6 {' {* c. \' L* x: Z# L( z9 l" V  FKMeans:n_clusters是一个关键参数,决定了聚类的数量。可以使用轮廓分析或肘方法来帮助确定最佳的聚类数量。
" d$ T. r4 z5 U; gDBSCAN:eps和min_samples是关键参数,分别决定了样本成为核心点的条件。这些参数对结果的影响较大,通常需要通过尝试不同的值来找到最佳的参数设置。
; d: v  I2 j" p, P1 B: E层次聚类:n_clusters、affinity和linkage是重要的参数,它们分别控制聚类的数量、用于计算距离的方法和聚类合并的准则。& n1 w: {' D, r1 ]& z
选择哪种聚类算法以及相应的参数设置,取决于数据集的特性和分析任务的目标。实践中,通常建议尝试多种聚类算法和参数配置,然后根据聚类的质量(例如,通过轮廓系数评估)来选择最佳的方法! g/ x" ]. Y$ _; P9 o* n
3 `! t1 u' w" j4 c9 ]4 S, A

9 l) T' H4 g9 q9 I9 L5 P( ^) _- y; `6 U7 h  ^+ L( S
zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-4-13 11:53 , Processed in 4.221197 second(s), 50 queries .

回顶部