查看: 1832|回复: 0

无监督学习练习对客户进行分组

字体大小: 正常放大

1189 主题	4 听众	2934 积分

该用户从未签到

电梯直达

1^#

发表于 2024-3-31 16:38 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

客户细分（K-均值聚类）
- 数据集：使用任何公开的客户数据集，如零售数据。
- 任务：根据购买行为对客户进行分组。
- 挑战：尝试不同的聚类算法（如DBSCAN、层次聚类）和调整参数来找到最佳的客户分组。
  4 q# {2 y1 l. j, }8 [$ Q
+ q A$ ~; x& E. ]. C: ?

使用KMeans进行客户细分

from sklearn.cluster import KMeans5 D7 _ Z6 e\" C6 g- D
from sklearn.preprocessing import StandardScaler
5 r. W2 a5 k- o* E8 g. B* E2 w/ ~
import pandas as pd7 e3 b! m+ I4 l7 l: c
2 C% ^$ c; }6 Z6 n9 S F\" L# y. y
# 加载客户数据集! i\" y$ V, v9 M$ a
# 假设df是一个Pandas DataFrame，包含了你感兴趣的特征+ n( S: C, A+ o2 C\" r# N8 \
# df = pd.read_csv('your_customer_data.csv')* @' J: _- E4 \$ j& J8 w
3 f$ U2 C* H: w2 o1 f0 C+ { ]
# 对数据进行标准化处理7 K, }. ~- r* L2 x% C* d
scaler = StandardScaler()
\" s# ]2 G7 f4 L7 ^
scaled_features = scaler.fit_transform(df)1 A! x& P( b9 @* q+ ~4 `& U
, K: q1 l/ ^7 O( s% S% `2 a8 y8 u
# 使用KMeans进行聚类
$ t$ Q X& c, k+ N5 R) `
kmeans = KMeans(n_clusters=5, random_state=42)1 c1 Y# _; {0 f( H
kmeans.fit(scaled_features)
: s1 ~! `( q7 ^: v
; J\" p4 R$ c( A
# 将聚类结果添加到原始DataFrame中6 h( o3 f/ \+ a! N/ I
df['Cluster'] = kmeans.labels_
6 t9 n8 t0 T0 w6 f x# [' {! G. a
' X( q5 _1 A8 s- L6 A
# 查看聚类结果
4 k4 M1 L# K1 }) W3 f3 u* [1 T
print(df.head())

复制代码

在这个示例中，我们首先对特征进行了标准化处理，这是聚类分析中的一个常见步骤，以确保所有特征在相同的尺度上。然后，我们使用KMeans算法对客户进行了分组，这里假设我们想要将客户分成5个群体。

尝试其他聚类算法DBSCAN

from sklearn.cluster import DBSCAN( [$ z5 [* E' L2 F! v
( d. ^7 ^5 l7 [8 H& C- |
# 使用DBSCAN进行聚类
7 `; b: z8 C7 P2 e
dbscan = DBSCAN(eps=0.5, min_samples=5)
\" x3 [. b2 g; S Q/ e& a
df['Cluster'] = dbscan.fit_predict(scaled_features)( v; }' F. u) Z1 _# L
0 M5 {2 c0 q9 b$ d' x3 `) o$ ?# s
# 查看聚类结果
' C( e\" H j\" F6 ^& _0 q% A
print(df.head())

复制代码

层次聚类

from sklearn.cluster import AgglomerativeClustering# C; V0 l9 L f/ g9 r
) i. n$ V+ K- J6 \
# 使用层次聚类进行聚类
8 |! t- u5 i: g3 U) e' [/ F2 j
agg_clustering = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward')
- D7 f6 t4 }- p- @+ R# X
df['Cluster'] = agg_clustering.fit_predict(scaled_features), o; w. E6 }. X! \: z
5 D& G$ ^1 C3 j3 u. H
# 查看聚类结果; S# y9 C# ?: r* h( L, W
print(df.head())

复制代码

调整参数和选择算法
KMeans：n_clusters是一个关键参数，决定了聚类的数量。可以使用轮廓分析或肘方法来帮助确定最佳的聚类数量。
DBSCAN：eps和min_samples是关键参数，分别决定了样本成为核心点的条件。这些参数对结果的影响较大，通常需要通过尝试不同的值来找到最佳的参数设置。
层次聚类：n_clusters、affinity和linkage是重要的参数，它们分别控制聚类的数量、用于计算距离的方法和聚类合并的准则。
选择哪种聚类算法以及相应的参数设置，取决于数据集的特性和分析任务的目标。实践中，通常建议尝试多种聚类算法和参数配置，然后根据聚类的质量（例如，通过轮廓系数评估）来选择最佳的方法

zan