查看: 1837|回复: 0

无监督学习练习对客户进行分组

字体大小: 正常放大

1189 主题	4 听众	2934 积分

该用户从未签到

电梯直达

1^#

发表于 2024-3-31 16:38 |只看该作者 |正序浏览

|招呼Ta 关注Ta

客户细分（K-均值聚类）
- 数据集：使用任何公开的客户数据集，如零售数据。
- 任务：根据购买行为对客户进行分组。
- 挑战：尝试不同的聚类算法（如DBSCAN、层次聚类）和调整参数来找到最佳的客户分组。! c. r& @% _2 t4 G
" f3 | S# r( r8 N# f

使用KMeans进行客户细分

from sklearn.cluster import KMeans
$ }9 u* _# l- C' [5 d, g
from sklearn.preprocessing import StandardScaler7 E5 f* z( e) j) f# P$ d\" H
import pandas as pd
$ d. {4 H- ]% g* `. u5 `
( g, \* ^8 E4 t' O
# 加载客户数据集- {5 ^8 C5 ~, T* p
# 假设df是一个Pandas DataFrame，包含了你感兴趣的特征; g! n( u/ R# @\" M# a
# df = pd.read_csv('your_customer_data.csv')
0 u9 h7 `* p4 N1 v
4 Y! q3 X0 t5 q) Q7 j
# 对数据进行标准化处理3 S+ |- C, |4 k. _3 u7 N! Y
scaler = StandardScaler(); T\" R% r1 d7 c+ c3 i5 Q\" F
scaled_features = scaler.fit_transform(df)$ h7 T* |; }+ ]) N; R
! j/ M) f2 a' o; m& [2 T! ]# J
# 使用KMeans进行聚类
e1 }, T\" o; @# M5 u- {
kmeans = KMeans(n_clusters=5, random_state=42)' `; q) s4 \- [* c/ e) F. m3 i
kmeans.fit(scaled_features)
' B Y$ \0 m6 u
5 C: b: \4 J, v+ {; O
# 将聚类结果添加到原始DataFrame中: l- y* U9 g( a: ~: c$ q3 Z4 t, }* H. O
df['Cluster'] = kmeans.labels_& D/ U, R. ?/ T1 }
\" T. W c' Y\" ~4 Q
# 查看聚类结果7 j# m! X9 x! U$ X! h1 ?
print(df.head())

复制代码

在这个示例中，我们首先对特征进行了标准化处理，这是聚类分析中的一个常见步骤，以确保所有特征在相同的尺度上。然后，我们使用KMeans算法对客户进行了分组，这里假设我们想要将客户分成5个群体。

尝试其他聚类算法DBSCAN

from sklearn.cluster import DBSCAN4 `, z4 |) O; z! {0 {( k/ k\" h, ]
* c8 M7 ?\" Q$ j* r) U' |
# 使用DBSCAN进行聚类, p! d, A8 j\" ~1 X+ n
dbscan = DBSCAN(eps=0.5, min_samples=5)
2 X9 I9 q8 }/ m0 V7 h/ C! B
df['Cluster'] = dbscan.fit_predict(scaled_features)
; z! E& `$ P/ U1 A: g
3 [, H+ m/ I' p. ?. h5 X+ h
# 查看聚类结果
1 L1 k/ m' d1 T\" x
print(df.head())

复制代码

层次聚类

from sklearn.cluster import AgglomerativeClustering# Q! `1 k! E1 a
, _/ _5 H+ O7 ]. t$ p+ x
# 使用层次聚类进行聚类
b( M# F: |. f0 c+ g
agg_clustering = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward')
; v4 o1 ]; a/ {$ b& H/ j# o
df['Cluster'] = agg_clustering.fit_predict(scaled_features)$ P5 S. |7 H4 J/ [( B
' O( h: H2 A U+ o, F
# 查看聚类结果. O) v# z& J* G+ ]' W' F
print(df.head())

复制代码

调整参数和选择算法
KMeans：n_clusters是一个关键参数，决定了聚类的数量。可以使用轮廓分析或肘方法来帮助确定最佳的聚类数量。
DBSCAN：eps和min_samples是关键参数，分别决定了样本成为核心点的条件。这些参数对结果的影响较大，通常需要通过尝试不同的值来找到最佳的参数设置。
层次聚类：n_clusters、affinity和linkage是重要的参数，它们分别控制聚类的数量、用于计算距离的方法和聚类合并的准则。
选择哪种聚类算法以及相应的参数设置，取决于数据集的特性和分析任务的目标。实践中，通常建议尝试多种聚类算法和参数配置，然后根据聚类的质量（例如，通过轮廓系数评估）来选择最佳的方法

zan