数学建模社区-数学中国

标题: 无监督学习练习对客户进行分组 [打印本页]

作者: 2744557306 时间: 2024-3-31 16:38
标题: 无监督学习练习对客户进行分组

客户细分（K-均值聚类）
- 数据集：使用任何公开的客户数据集，如零售数据。
- 任务：根据购买行为对客户进行分组。
- 挑战：尝试不同的聚类算法（如DBSCAN、层次聚类）和调整参数来找到最佳的客户分组。( c7 _5 Z9 M8 Q6 N% m: o& t+ T
6 f4 P+ ]. U4 Z6 n' h# n% q

使用KMeans进行客户细分

from sklearn.cluster import KMeans; N% n0 s1 h1 W7 X$ Q2 A
from sklearn.preprocessing import StandardScaler+ X" P" K" F: l0 f3 D N
import pandas as pd% W) t0 |9 x7 q$ s5 J
* J& H4 c2 ^4 a- x8 t- e
# 加载客户数据集# w8 f+ a f! K
# 假设df是一个Pandas DataFrame，包含了你感兴趣的特征
2 g$ K2 z( C% v' l/ ^! z
# df = pd.read_csv('your_customer_data.csv')
+ Q# b; ~. [/ n6 c7 S" Q6 y3 e; r
. b- r7 ^- {! F& U% {$ p
# 对数据进行标准化处理
5 a6 t0 \0 J3 d6 {8 e
scaler = StandardScaler()8 g, E* M; A2 E( j" E
scaled_features = scaler.fit_transform(df)1 Q; T9 Z" ~" K/ n( N* ]- x3 J; C( N
9 C) [# _4 V O" j* R' c
# 使用KMeans进行聚类% }: d$ t: l* A! ^; Q3 y- H$ Y
kmeans = KMeans(n_clusters=5, random_state=42)
) G# D+ [) Z" r3 B+ f; p
kmeans.fit(scaled_features)3 ]; @2 `* o, I' H2 n' k
) l$ T0 c4 w/ S: \5 N3 c+ G' q
# 将聚类结果添加到原始DataFrame中6 N1 M, f. I' N
df['Cluster'] = kmeans.labels_
, j! b, m: [5 w L# v
) R2 W! @7 f7 J/ v; w$ W# ^/ D( F
# 查看聚类结果
6 X. ]* z, p8 S) Q; O) ?# Y* s
print(df.head())

复制代码

在这个示例中，我们首先对特征进行了标准化处理，这是聚类分析中的一个常见步骤，以确保所有特征在相同的尺度上。然后，我们使用KMeans算法对客户进行了分组，这里假设我们想要将客户分成5个群体。

尝试其他聚类算法DBSCAN

from sklearn.cluster import DBSCAN
! b1 `' T: g! J$ b; a! z
: k3 X" }- F9 }7 m' K. y8 V
# 使用DBSCAN进行聚类/ v* o, k( ]+ I8 k, v
dbscan = DBSCAN(eps=0.5, min_samples=5), X( Q! |. q, |, `' T
df['Cluster'] = dbscan.fit_predict(scaled_features)
8 g. ?( i. m% _
+ d% X r ]$ v% \+ v' v( w; S
# 查看聚类结果6 I1 B: a4 O! Y, ~; a: d2 ^; U
print(df.head())

复制代码

层次聚类

from sklearn.cluster import AgglomerativeClustering# F' ^# [ O0 z2 K
4 r) }! Y9 x" l
# 使用层次聚类进行聚类
W" Y8 `5 T& [3 G9 V+ _
agg_clustering = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward')! K6 z) P+ X o; o: m& h
df['Cluster'] = agg_clustering.fit_predict(scaled_features)
* F W4 a5 K+ N- I. s" c) M' b
3 |: {) V2 w4 e L. n* n
# 查看聚类结果
1 T+ W& L( z, f% f7 c4 D% @
print(df.head())

复制代码

调整参数和选择算法
KMeans：n_clusters是一个关键参数，决定了聚类的数量。可以使用轮廓分析或肘方法来帮助确定最佳的聚类数量。
DBSCAN：eps和min_samples是关键参数，分别决定了样本成为核心点的条件。这些参数对结果的影响较大，通常需要通过尝试不同的值来找到最佳的参数设置。
层次聚类：n_clusters、affinity和linkage是重要的参数，它们分别控制聚类的数量、用于计算距离的方法和聚类合并的准则。
选择哪种聚类算法以及相应的参数设置，取决于数据集的特性和分析任务的目标。实践中，通常建议尝试多种聚类算法和参数配置，然后根据聚类的质量（例如，通过轮廓系数评估）来选择最佳的方法

欢迎光临数学建模社区-数学中国 (http://www.madio.net/)

Powered by Discuz! X2.5