查看: 1831|回复: 0

无监督学习练习对客户进行分组

字体大小: 正常放大

1189 主题	4 听众	2934 积分

该用户从未签到

电梯直达

1^#

发表于 2024-3-31 16:38 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

客户细分（K-均值聚类）
- 数据集：使用任何公开的客户数据集，如零售数据。
- 任务：根据购买行为对客户进行分组。
- 挑战：尝试不同的聚类算法（如DBSCAN、层次聚类）和调整参数来找到最佳的客户分组。 K7 b1 j' @* t4 x# `; w! j" w
* l5 J I* ]3 P# u% Y) K* M

使用KMeans进行客户细分

from sklearn.cluster import KMeans2 ^( p( \# J) g8 g9 \: G0 ^# N
from sklearn.preprocessing import StandardScaler( o Q% Z\" ^# j6 T) U- K( [, x% n
import pandas as pd
# l# v! T* `( E3 M3 K4 B! ]( T
& ?# P( ^6 r; K0 N
# 加载客户数据集* ]( _7 e& ] a9 z1 B
# 假设df是一个Pandas DataFrame，包含了你感兴趣的特征$ J5 Z# k5 b, n) U' ] z/ f- @
# df = pd.read_csv('your_customer_data.csv')! \ n- m3 N {( z1 k9 f6 s
1 O7 w& Q/ I# k6 ^6 \4 C
# 对数据进行标准化处理$ U) p6 i3 N; p\" M3 p+ x
scaler = StandardScaler()
: u n1 [; h. T+ b9 s! J& i e
scaled_features = scaler.fit_transform(df)% b% w& P# ?5 p7 M' K) ?- e2 F
\" `, p' r- K `3 j& g, S2 l
# 使用KMeans进行聚类' ^2 W; e7 Q' y2 B
kmeans = KMeans(n_clusters=5, random_state=42)
* ]3 x' X9 P' a0 P( H1 u) V, j
kmeans.fit(scaled_features)\" s% j5 U4 w! L
! |\" M' ~2 }; _4 [5 E! F
# 将聚类结果添加到原始DataFrame中
2 X8 C) H! o. Y2 Q0 E! d
df['Cluster'] = kmeans.labels_5 M! D* I. Z' S: @* K
( K/ S* K/ S M
# 查看聚类结果
; r7 K% R5 G2 r0 {
print(df.head())

复制代码

在这个示例中，我们首先对特征进行了标准化处理，这是聚类分析中的一个常见步骤，以确保所有特征在相同的尺度上。然后，我们使用KMeans算法对客户进行了分组，这里假设我们想要将客户分成5个群体。

尝试其他聚类算法DBSCAN

from sklearn.cluster import DBSCAN
u3 V/ L( p* d# ~: r! }: B
9 R2 G) V: a! }: O
# 使用DBSCAN进行聚类. s0 X/ X' H. \+ ?
dbscan = DBSCAN(eps=0.5, min_samples=5)$ u. [\" a; r8 {/ o$ {, X
df['Cluster'] = dbscan.fit_predict(scaled_features)# V\" x- c% x _# v6 l1 x
0 w5 ?+ @7 t0 g' ~
# 查看聚类结果* g! o% B! [+ O* L/ o9 M B+ W( S
print(df.head())

复制代码

层次聚类

from sklearn.cluster import AgglomerativeClustering
$ \, f% C( i# c5 i
( I7 ^4 X8 @5 {6 P$ N
# 使用层次聚类进行聚类1 I1 C9 g$ }9 H) \' s& [
agg_clustering = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward')) A0 @* l1 x5 W' [7 w8 q7 X1 `1 n% g) s% o
df['Cluster'] = agg_clustering.fit_predict(scaled_features)
2 }. y$ m\" O0 i$ p, X
\" @ g+ @4 w% R* E6 H) q# r& b
# 查看聚类结果) K3 [6 A' J9 r5 @
print(df.head())

复制代码

调整参数和选择算法
KMeans：n_clusters是一个关键参数，决定了聚类的数量。可以使用轮廓分析或肘方法来帮助确定最佳的聚类数量。
DBSCAN：eps和min_samples是关键参数，分别决定了样本成为核心点的条件。这些参数对结果的影响较大，通常需要通过尝试不同的值来找到最佳的参数设置。
层次聚类：n_clusters、affinity和linkage是重要的参数，它们分别控制聚类的数量、用于计算距离的方法和聚类合并的准则。
选择哪种聚类算法以及相应的参数设置，取决于数据集的特性和分析任务的目标。实践中，通常建议尝试多种聚类算法和参数配置，然后根据聚类的质量（例如，通过轮廓系数评估）来选择最佳的方法

zan