查看: 1838|回复: 0

无监督学习练习对客户进行分组

字体大小: 正常放大

1189 主题	4 听众	2934 积分

该用户从未签到

电梯直达

1^#

发表于 2024-3-31 16:38 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

客户细分（K-均值聚类）
- 数据集：使用任何公开的客户数据集，如零售数据。
- 任务：根据购买行为对客户进行分组。
- 挑战：尝试不同的聚类算法（如DBSCAN、层次聚类）和调整参数来找到最佳的客户分组。
  0 f5 Z7 v# B7 g3 _% O
# n r( }: u- U k7 q2 L

使用KMeans进行客户细分

from sklearn.cluster import KMeans
: q! H) w; y3 ^' }
from sklearn.preprocessing import StandardScaler
# T6 Z* k, \/ K4 b$ r0 G
import pandas as pd
\" g/ G. x9 S+ U- F9 o& o
0 K/ b0 B) p7 {' l) M; ]
# 加载客户数据集
, ~. J; L. E8 h8 T& Q, B& E2 Q
# 假设df是一个Pandas DataFrame，包含了你感兴趣的特征2 B\" j9 ]5 _7 T& P- N
# df = pd.read_csv('your_customer_data.csv')
. f( }4 x/ I% D& A/ b
, V7 ]* J. N+ G5 h, {$ Z2 d
# 对数据进行标准化处理5 Z7 |- \- K. f
scaler = StandardScaler()( D% ^9 G& O) o W: [* O
scaled_features = scaler.fit_transform(df) s) ~3 {, {- `% c# \1 W- e, J
' K7 u, G# T/ Q- R7 W8 }
# 使用KMeans进行聚类
! L/ c7 f) ?0 N9 ?
kmeans = KMeans(n_clusters=5, random_state=42)
' s( F5 T% o+ S, n\" Z
kmeans.fit(scaled_features)
K$ o6 y! P# ~\" T, u( i% g
C: U% {* Q4 i: t2 D7 Q
# 将聚类结果添加到原始DataFrame中0 b6 h6 H& t) ?5 J
df['Cluster'] = kmeans.labels_% z9 S# ?; g( B' r
* }4 t/ U/ x$ i+ O. E
# 查看聚类结果
# e1 D7 M7 J9 Z( T% G
print(df.head())

复制代码

在这个示例中，我们首先对特征进行了标准化处理，这是聚类分析中的一个常见步骤，以确保所有特征在相同的尺度上。然后，我们使用KMeans算法对客户进行了分组，这里假设我们想要将客户分成5个群体。

尝试其他聚类算法DBSCAN

from sklearn.cluster import DBSCAN
9 w- `9 h% o6 s3 O
! V; d! w* q, u( E
# 使用DBSCAN进行聚类# e! b( ]0 S& r) L+ w8 O/ v
dbscan = DBSCAN(eps=0.5, min_samples=5)8 G# S T+ o0 b- x) f6 Z( s
df['Cluster'] = dbscan.fit_predict(scaled_features)
5 Z2 v, J1 U* w4 |7 h3 X
0 Y( a( D4 s; x' g) g& u i: p% e
# 查看聚类结果
# ~; O/ O1 ]. J& d
print(df.head())

复制代码

层次聚类

from sklearn.cluster import AgglomerativeClustering
/ B, U8 N! v0 N7 Z0 g$ q5 M
6 g/ a; t2 ^+ C) b- D
# 使用层次聚类进行聚类- o5 r( a! i) B2 h; d- U
agg_clustering = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward')
, i& @% a: O: H r
df['Cluster'] = agg_clustering.fit_predict(scaled_features)
4 U6 O# z: ~3 g$ A4 B E
* Z# K/ W: G: U$ h* K* i% i$ l6 n
# 查看聚类结果6 Y5 a: y9 s\" h3 q8 N$ @
print(df.head())

复制代码

调整参数和选择算法
KMeans：n_clusters是一个关键参数，决定了聚类的数量。可以使用轮廓分析或肘方法来帮助确定最佳的聚类数量。
DBSCAN：eps和min_samples是关键参数，分别决定了样本成为核心点的条件。这些参数对结果的影响较大，通常需要通过尝试不同的值来找到最佳的参数设置。
层次聚类：n_clusters、affinity和linkage是重要的参数，它们分别控制聚类的数量、用于计算距离的方法和聚类合并的准则。
选择哪种聚类算法以及相应的参数设置，取决于数据集的特性和分析任务的目标。实践中，通常建议尝试多种聚类算法和参数配置，然后根据聚类的质量（例如，通过轮廓系数评估）来选择最佳的方法

zan