数学建模社区-数学中国
标题: 无监督学习练习 对客户进行分组 [打印本页]
作者: 2744557306 时间: 2024-3-31 16:38
标题: 无监督学习练习 对客户进行分组
- 客户细分(K-均值聚类)
- 数据集:使用任何公开的客户数据集,如零售数据。
- 任务:根据购买行为对客户进行分组。
- 挑战:尝试不同的聚类算法(如DBSCAN、层次聚类)和调整参数来找到最佳的客户分组。7 D# D: }0 a9 M: w, W$ R0 O" B
3 F( i6 v% j8 Y
使用KMeans进行客户细分- from sklearn.cluster import KMeans
8 y5 r) M: v+ O6 Z( v) P - from sklearn.preprocessing import StandardScaler% d3 {9 r2 G9 Q. J
- import pandas as pd( P0 T! u2 ^- C8 X z. b, D3 R: c$ q
-
$ L8 o, Z- V3 c- k - # 加载客户数据集- H1 S# o4 X: j; e( G( i( M
- # 假设df是一个Pandas DataFrame,包含了你感兴趣的特征% {) v3 P! d% t
- # df = pd.read_csv('your_customer_data.csv')4 _ L/ Y, U7 d* x2 O y9 c
- / d2 |7 o0 ?* B& X2 t
- # 对数据进行标准化处理, V4 o% h* s( m1 w9 T/ X
- scaler = StandardScaler()+ G" ? [" K6 D R
- scaled_features = scaler.fit_transform(df)
. d+ l: i& w, m9 v9 b -
5 ^( Y# d1 _; b; T# i - # 使用KMeans进行聚类 \6 f3 n5 E7 V- [; n" b8 f. s; Q
- kmeans = KMeans(n_clusters=5, random_state=42)( i& s" q. Y$ M0 e. ~* _3 e$ S, V
- kmeans.fit(scaled_features)
% B' s6 v$ N* D) T i -
3 B; T7 J; |6 |: S) M - # 将聚类结果添加到原始DataFrame中/ d, l! j9 q$ M: A
- df['Cluster'] = kmeans.labels_
- L' ?% ?1 q. ^; w -
1 b: d/ E6 W3 V" |! l - # 查看聚类结果
) F V1 y0 g! ^ - print(df.head())
复制代码在这个示例中,我们首先对特征进行了标准化处理,这是聚类分析中的一个常见步骤,以确保所有特征在相同的尺度上。然后,我们使用KMeans算法对客户进行了分组,这里假设我们想要将客户分成5个群体。
尝试其他聚类算法DBSCAN- from sklearn.cluster import DBSCAN
0 h' B% j- T0 H% r -
# i y3 r- R6 t7 {7 \ - # 使用DBSCAN进行聚类
7 e8 i5 L4 ^0 Z0 r: u9 |! w - dbscan = DBSCAN(eps=0.5, min_samples=5)6 ~5 R% U5 Z$ t2 F3 r; d- Z8 w. _
- df['Cluster'] = dbscan.fit_predict(scaled_features)( Q$ k. K+ F" D$ \
-
E# N, |& G$ ^" j - # 查看聚类结果, U6 |+ D$ h5 Q& q- q. |
- print(df.head())
复制代码 层次聚类- from sklearn.cluster import AgglomerativeClustering
4 o: }9 ^& y$ R9 k" y% A -
% n% T# P( V8 H# ] - # 使用层次聚类进行聚类
+ w/ E; c& C8 W) y! B8 H3 y! q - agg_clustering = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward')* L. O; ~- b- a
- df['Cluster'] = agg_clustering.fit_predict(scaled_features)
# Z- T- @) _4 e -
1 T+ D7 N$ S5 J1 X# ]& [; ~ - # 查看聚类结果
! | P" |, {- R8 J$ \9 p' O+ H - print(df.head())
复制代码 调整参数和选择算法! B: a9 J% k2 Q9 j7 j( m# P
KMeans:n_clusters是一个关键参数,决定了聚类的数量。可以使用轮廓分析或肘方法来帮助确定最佳的聚类数量。& s {3 c1 _$ j; e; |, _0 t4 \
DBSCAN:eps和min_samples是关键参数,分别决定了样本成为核心点的条件。这些参数对结果的影响较大,通常需要通过尝试不同的值来找到最佳的参数设置。
4 {: `5 ^& O' N3 u+ t( t层次聚类:n_clusters、affinity和linkage是重要的参数,它们分别控制聚类的数量、用于计算距离的方法和聚类合并的准则。
* H- \% w& f- Q: Z. ^选择哪种聚类算法以及相应的参数设置,取决于数据集的特性和分析任务的目标。实践中,通常建议尝试多种聚类算法和参数配置,然后根据聚类的质量(例如,通过轮廓系数评估)来选择最佳的方法
3 a9 K/ V7 M& d" i' k _& ~9 Q6 R% Z5 `
) |# G' Q0 N( H; S& e+ Z) T
9 ` l8 l8 w/ @4 L
| 欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) |
Powered by Discuz! X2.5 |