QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1784|回复: 0
打印 上一主题 下一主题

无监督学习练习 对客户进行分组

[复制链接]
字体大小: 正常 放大

1189

主题

4

听众

2934

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-31 16:38 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
  • 客户细分(K-均值聚类)
    • 数据集:使用任何公开的客户数据集,如零售数据。
    • 任务:根据购买行为对客户进行分组。
    • 挑战:尝试不同的聚类算法(如DBSCAN、层次聚类)和调整参数来找到最佳的客户分组。5 i) |; D' _" @% b4 g: W
    , c1 x) u2 r/ u
使用KMeans进行客户细分
  1. from sklearn.cluster import KMeans
    ( O; e6 y. p- W9 S
  2. from sklearn.preprocessing import StandardScaler
    2 \4 [. p4 N' ?! |! X' u% z( `  t  C! ^
  3. import pandas as pd
    . j* h3 Y* t\" `$ r# y' ^
  4. % X7 [! W) h8 X2 W$ m) J9 Y
  5. # 加载客户数据集0 |3 k: C- ^! J/ d8 a
  6. # 假设df是一个Pandas DataFrame,包含了你感兴趣的特征- _6 }7 }7 i& n! J8 M
  7. # df = pd.read_csv('your_customer_data.csv')& y. V: G7 ?, i; h6 _5 u\" y

  8. ) u9 T# W8 Z* G5 x
  9. # 对数据进行标准化处理
    4 i8 n- C. t0 o+ d7 L
  10. scaler = StandardScaler()
    8 I% S9 c4 |$ F/ ]
  11. scaled_features = scaler.fit_transform(df)
    3 Y  @$ D, y9 g% d

  12. + J  l- h1 E  v3 h  k8 Q2 R
  13. # 使用KMeans进行聚类
    % g8 u& ~+ C1 g, e. M
  14. kmeans = KMeans(n_clusters=5, random_state=42): ]: I, f9 q; [1 A2 _! ]* L
  15. kmeans.fit(scaled_features)) r1 ~0 S; ?% N0 C& L( Q) V0 [

  16. - T9 }: ?: ~2 L$ J8 G' P0 e
  17. # 将聚类结果添加到原始DataFrame中
    1 g$ L5 o' e4 U5 `( {6 M6 _) `
  18. df['Cluster'] = kmeans.labels_
    . K& Z2 O6 l$ c. h8 @\" i5 y$ L/ S

  19. , C7 c6 n\" P+ F$ ?' c\" B
  20. # 查看聚类结果
    5 n) s8 d% F6 @) t
  21. print(df.head())
复制代码

在这个示例中,我们首先对特征进行了标准化处理,这是聚类分析中的一个常见步骤,以确保所有特征在相同的尺度上。然后,我们使用KMeans算法对客户进行了分组,这里假设我们想要将客户分成5个群体。

尝试其他聚类算法DBSCAN
  1. from sklearn.cluster import DBSCAN2 w2 k# F4 w# M( y+ ^) {
  2. . n5 m8 ^4 V- Y3 g+ K
  3. # 使用DBSCAN进行聚类  \/ ?& [3 i/ c; u\" o- u
  4. dbscan = DBSCAN(eps=0.5, min_samples=5)
    . M6 [! h% G1 t2 V: e
  5. df['Cluster'] = dbscan.fit_predict(scaled_features)
    ; _- X! s8 C# K6 G+ J\" ]

  6. + D! C% V2 W9 v2 N\" A8 v
  7. # 查看聚类结果, Z* L% y5 ~) K* r; m
  8. print(df.head())
复制代码
层次聚类
  1. from sklearn.cluster import AgglomerativeClustering
    ; J\" o4 e: y3 R\" k1 w

  2. * s, e, {0 J\" h' R% j\" r
  3. # 使用层次聚类进行聚类
    * ?1 w6 ^2 U: P8 W- W: F# X
  4. agg_clustering = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward')1 O' F* j! u8 ^3 I
  5. df['Cluster'] = agg_clustering.fit_predict(scaled_features)
    4 V' |, {1 o: X# Y/ o7 O$ J6 T& ~
  6. 1 Q* P9 e/ U7 a4 x. k( z& E
  7. # 查看聚类结果
    ; ]' ]; S% K4 W! `\" a
  8. print(df.head())
复制代码
调整参数和选择算法% i) Q: R# h3 s! H, _/ z# \. F; J( C
KMeans:n_clusters是一个关键参数,决定了聚类的数量。可以使用轮廓分析或肘方法来帮助确定最佳的聚类数量。; J0 E9 N# `5 R: O
DBSCAN:eps和min_samples是关键参数,分别决定了样本成为核心点的条件。这些参数对结果的影响较大,通常需要通过尝试不同的值来找到最佳的参数设置。2 ^. O* W6 m) T7 \+ g3 G
层次聚类:n_clusters、affinity和linkage是重要的参数,它们分别控制聚类的数量、用于计算距离的方法和聚类合并的准则。
. S* c0 e9 }: W; R  @选择哪种聚类算法以及相应的参数设置,取决于数据集的特性和分析任务的目标。实践中,通常建议尝试多种聚类算法和参数配置,然后根据聚类的质量(例如,通过轮廓系数评估)来选择最佳的方法
' V' k0 ^2 N  @% q; g; l# S: e! \1 {4 m/ C$ d, u! M% m

7 R2 [5 t4 Y# K5 u8 O8 j, [% L
$ _% V0 f$ _5 m; i0 y
zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-6-12 07:35 , Processed in 0.358620 second(s), 51 queries .

回顶部