查看: 1839|回复: 0

无监督学习练习对客户进行分组

字体大小: 正常放大

1189 主题	4 听众	2934 积分

该用户从未签到

电梯直达

1^#

发表于 2024-3-31 16:38 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

客户细分（K-均值聚类）
- 数据集：使用任何公开的客户数据集，如零售数据。
- 任务：根据购买行为对客户进行分组。
- 挑战：尝试不同的聚类算法（如DBSCAN、层次聚类）和调整参数来找到最佳的客户分组。 e" {/ N* C0 M( ] t3 [
2 M- [2 U0 w% k; u' b# e2 h( i

使用KMeans进行客户细分

from sklearn.cluster import KMeans
g: D. x9 v8 ^0 X( _* g
from sklearn.preprocessing import StandardScaler5 Y& I9 | z& O
import pandas as pd! f D Q- \# X' D' M3 N
) t7 i$ [) J/ v# t: }) j
# 加载客户数据集' r1 C% u( P/ X& I( |/ l
# 假设df是一个Pandas DataFrame，包含了你感兴趣的特征# F3 d# O( j8 w7 J0 F+ z
# df = pd.read_csv('your_customer_data.csv'), a9 E a# Q* R\" {
9 l- R5 P3 K: M8 k
# 对数据进行标准化处理
+ N- c, |) @, [6 z+ A& S
scaler = StandardScaler()
( h0 l1 s, Q0 ~. u4 k
scaled_features = scaler.fit_transform(df) `: s) S! `2 v3 R C/ p2 D
# {, f5 j1 W! p6 D8 n3 _
# 使用KMeans进行聚类\" C$ s6 R( `9 }; @
kmeans = KMeans(n_clusters=5, random_state=42)1 F1 r1 h/ K& x+ X8 b: B# S
kmeans.fit(scaled_features)
4 i8 Z$ r S4 o% |
! t; F\" n: o4 w) w; U9 R |
# 将聚类结果添加到原始DataFrame中
7 ?# {! w* B8 f% Y7 F
df['Cluster'] = kmeans.labels_* j7 c# r: X J+ E
' e( u- u1 O7 Q2 z( ^- I# @) @
# 查看聚类结果! T7 ]& |# Y5 I2 i) b
print(df.head())

复制代码

在这个示例中，我们首先对特征进行了标准化处理，这是聚类分析中的一个常见步骤，以确保所有特征在相同的尺度上。然后，我们使用KMeans算法对客户进行了分组，这里假设我们想要将客户分成5个群体。

尝试其他聚类算法DBSCAN

from sklearn.cluster import DBSCAN
3 M4 V! W/ D+ `3 r4 E* a
! r: }- g' F3 W$ |! U4 C4 L+ M
# 使用DBSCAN进行聚类9 f1 |) R5 x. K2 ?+ `3 f\" T6 ]
dbscan = DBSCAN(eps=0.5, min_samples=5)
# e$ k3 ~# N! ^/ D4 Z
df['Cluster'] = dbscan.fit_predict(scaled_features)5 f7 q; j) n$ U. d, b
6 n' c7 V$ d0 z h$ x\" }
# 查看聚类结果8 a6 R3 i) K; U/ [* w
print(df.head())

复制代码

层次聚类

from sklearn.cluster import AgglomerativeClustering. b; B; D4 T) \
! D+ v! H& W1 y V+ F* c
# 使用层次聚类进行聚类
6 U: T- w) y! q% b$ q! C+ L
agg_clustering = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward')0 S: S! d8 z8 ^2 J p: v+ D
df['Cluster'] = agg_clustering.fit_predict(scaled_features)+ s- _1 N4 ?- c/ N0 {( d
- b8 a) D! ?% s' D) ~) Z
# 查看聚类结果
$ { `$ x& ^4 ^( o- W0 u& }4 V8 |* g
print(df.head())

复制代码

调整参数和选择算法
KMeans：n_clusters是一个关键参数，决定了聚类的数量。可以使用轮廓分析或肘方法来帮助确定最佳的聚类数量。
DBSCAN：eps和min_samples是关键参数，分别决定了样本成为核心点的条件。这些参数对结果的影响较大，通常需要通过尝试不同的值来找到最佳的参数设置。
层次聚类：n_clusters、affinity和linkage是重要的参数，它们分别控制聚类的数量、用于计算距离的方法和聚类合并的准则。
选择哪种聚类算法以及相应的参数设置，取决于数据集的特性和分析任务的目标。实践中，通常建议尝试多种聚类算法和参数配置，然后根据聚类的质量（例如，通过轮廓系数评估）来选择最佳的方法

zan