QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1785|回复: 0
打印 上一主题 下一主题

无监督学习练习 对客户进行分组

[复制链接]
字体大小: 正常 放大

1189

主题

4

听众

2934

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-31 16:38 |只看该作者 |正序浏览
|招呼Ta 关注Ta
  • 客户细分(K-均值聚类)
    • 数据集:使用任何公开的客户数据集,如零售数据。
    • 任务:根据购买行为对客户进行分组。
    • 挑战:尝试不同的聚类算法(如DBSCAN、层次聚类)和调整参数来找到最佳的客户分组。: S0 ^, R1 q2 z5 O1 ?
    6 q/ H- p( ?$ Y( a& B1 ~0 |
使用KMeans进行客户细分
  1. from sklearn.cluster import KMeans3 t! ~\" j9 c* j- i& P: c
  2. from sklearn.preprocessing import StandardScaler$ s. n# Z- J3 [; O1 C* L; a
  3. import pandas as pd  C8 e) u$ g7 q# K& E3 F3 ~

  4.   t+ x: E) N& M, K9 w1 K8 Q
  5. # 加载客户数据集
    ; q8 t& _/ j  F- r4 }
  6. # 假设df是一个Pandas DataFrame,包含了你感兴趣的特征\" O( H5 V$ I' O. w\" s$ @
  7. # df = pd.read_csv('your_customer_data.csv')
    7 ^8 ^1 B; N/ c9 j. U! q7 \
  8. & Y! f( P3 w. D- P
  9. # 对数据进行标准化处理
    3 R7 _% H& C0 g& e& a0 e
  10. scaler = StandardScaler()7 C. i; Y! x: F/ K9 g: d. p* s
  11. scaled_features = scaler.fit_transform(df), {. J3 I8 n# h: l( E
  12. ! `$ v7 s. ^# ]* q/ {, {3 B; e
  13. # 使用KMeans进行聚类
    ) c8 y9 z0 P+ b8 n5 z1 \  `
  14. kmeans = KMeans(n_clusters=5, random_state=42)
    3 v; T! I- t; k; P
  15. kmeans.fit(scaled_features)! Z' L% Z) p\" c5 O* {
  16. ' w5 g! V! r0 X3 o$ Y; ?  P$ ^
  17. # 将聚类结果添加到原始DataFrame中
    8 a. g* ]# h# z
  18. df['Cluster'] = kmeans.labels_
    1 G1 {7 N  B1 v' o) Q# s9 M6 h) A
  19. , f3 ]- ^0 ]% Q- n% {0 g# |
  20. # 查看聚类结果* U4 M% v: {- t9 P
  21. print(df.head())
复制代码

在这个示例中,我们首先对特征进行了标准化处理,这是聚类分析中的一个常见步骤,以确保所有特征在相同的尺度上。然后,我们使用KMeans算法对客户进行了分组,这里假设我们想要将客户分成5个群体。

尝试其他聚类算法DBSCAN
  1. from sklearn.cluster import DBSCAN
    ( o+ p0 C\" f; n  f/ f+ U! z
  2. 3 k1 [+ N/ U$ G( G9 C9 g9 p\" `. Z
  3. # 使用DBSCAN进行聚类. E4 }2 q5 x3 t4 L7 A; z; X
  4. dbscan = DBSCAN(eps=0.5, min_samples=5)+ c8 y# h6 K$ d) i* n& c  u, d6 t# l
  5. df['Cluster'] = dbscan.fit_predict(scaled_features)8 E\" c: r( A1 W
  6.   g3 T( [/ X; `6 H/ Z' f0 E
  7. # 查看聚类结果
    9 ?2 N\" k) q6 }6 |
  8. print(df.head())
复制代码
层次聚类
  1. from sklearn.cluster import AgglomerativeClustering
    . D4 R4 g4 f% }; z4 ^% ~: h
  2. , K5 g- P2 w5 r0 y% ~
  3. # 使用层次聚类进行聚类
    $ j# Y& a# y+ U\" Y\" n# t
  4. agg_clustering = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward')
    % I% b\" O% @4 Q0 t
  5. df['Cluster'] = agg_clustering.fit_predict(scaled_features)
    + o) D2 n# |) ^# a. K& z8 T
  6. 3 X1 r) A- V8 X# \  W
  7. # 查看聚类结果' e+ u; n0 V$ d5 O! k, y  I
  8. print(df.head())
复制代码
调整参数和选择算法
7 v- N) u9 W3 X* Q2 [( s0 HKMeans:n_clusters是一个关键参数,决定了聚类的数量。可以使用轮廓分析或肘方法来帮助确定最佳的聚类数量。7 K: M* d$ Z8 Z5 K
DBSCAN:eps和min_samples是关键参数,分别决定了样本成为核心点的条件。这些参数对结果的影响较大,通常需要通过尝试不同的值来找到最佳的参数设置。
' `2 e) o+ _& g  e层次聚类:n_clusters、affinity和linkage是重要的参数,它们分别控制聚类的数量、用于计算距离的方法和聚类合并的准则。8 G4 m) g9 [* w3 L
选择哪种聚类算法以及相应的参数设置,取决于数据集的特性和分析任务的目标。实践中,通常建议尝试多种聚类算法和参数配置,然后根据聚类的质量(例如,通过轮廓系数评估)来选择最佳的方法( h$ ?4 o% N" f6 f. t1 o( p

0 U# q9 ~2 D, k
7 ]- F+ X/ X& A2 ?+ a- S: ]. R( `4 u3 ^" H
zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-6-12 12:14 , Processed in 0.414772 second(s), 51 queries .

回顶部