商品购物篮分析! u+ o4 s& ]0 x: z9 f8 A, T8 p1 Y$ T
现代商品种类繁多,顾客往往会由于需要购买的商品众多而变得疲于选择,且顾客并不会因为商品选择丰富而选择购买更多的商品。 - q7 L& a6 m- _) q: ~' Z1 Z6 F3 ?. I, W$ _, V8 Q8 n& G! G3 G
对于某些商品,顾客会选择同时购买,如面包与牛奶、薯片与可乐等,当面包与牛奶或者薯片与可乐分布在商场的两侧,且距离十分遥远时,顾客购买的欲望就会减少,在时间紧迫的情况下顾客甚至会放弃购买某些计划购买的商品。相反,把牛奶与面包摆放在相邻的位置,既给顾客提供便利,提升购物体验,又提高顾客购买的概率,达到了促销的目的。. I) w6 i- p" {8 D
8 n0 Y+ q) H) g W& q0 T7 U$ }某商品零售企业共收集了9835个购物篮的数据,其中包含169个不同的商品类别,售出商品总数为43367件。其数据示例如表所示。 4 Z) `; I3 y; T# L1 ~1 o, H . F, [( A @4 D% }0 W4 D$ J5 k0 ^ ^) g7 z( j5 w: X5 S
针对原始数据中不同商品销量进行统计,结果如表所示。 ! w3 E1 B( f, ^; p0 Y3 nØ全脂牛奶销售量最高,销量为2513件,占比5.795%。 + w! T0 V8 g2 N' Z- j& [Ø其余热销商品还有其他蔬菜销量1903件,占比4.388%。 ) ~9 q, |3 i6 a' S% |Ø面包卷销量1809件,占比4.171%。/ K' K6 c. J% X1 i! S
Ø苏打销量1715件,占比3.955%。酸奶销量1372件,占比3.164%等。 & p% x/ E+ x. p. {" B8 F前20种商品销量占据的比例约为50%,基本符合“二八定律”。 ) p7 N* i* W% e * G/ ]& t" y2 A: J/ c$ o对每一类商品的热销程度进行分析,有利于商家制定商品在货架的摆放策略和位置。若是某类商品较为热销,它的摆放位置可以有如下选择。 4 J7 c1 I3 j! I+ wØ可以把此类商品摆放到商场的中心位置,方便顾客选购。 % N( J9 t' B" f. {2 L9 p! ^Ø或者把此类商品摆放到商场深处位置,使顾客在购买热销商品前经过非热销商品,增加在非热销商品处的停留时间,促进非热销产品的销量。6 |1 U# M; L9 F' N! r% W: X
关联规则算法主要用于寻找数据中项集之间的关联关系,基于样本的统计规律,进行关联规则分析。根据所分析的关联关系,可从一个特征的信息来推断另一个特征的信息。当信息置信度达到某一阈值时,就可以认为规则成立。 8 p0 {( \; o* {( k1 d关于这个算法有一个非常有名的故事:“尿布和啤酒”。故事是这样的:美国的妇女们经常会嘱咐她们的丈夫下班后为孩子买尿布,而丈夫在买完尿布后又要顺 手买回自己爱喝的啤酒,因此啤酒和尿布在一起被购买的机会很多。这个举措使尿布和啤酒的销量双双增加,并一直为众商家所津津乐道。 4 O0 B5 Q$ a0 A# |* V% ?" O' e" C9 p4 @9 x/ e* X; v. |6 G6 W
Ø1. Apriori算法应用广泛,可用于消费市场价格分析,猜测顾客的消费习惯,比如较有名的“尿布和啤酒”的故事; . C% u9 g$ a8 c: g) Z% YØ2.网络安全领域中的入侵检测技术;5 E$ d# X3 \) m& N3 Q8 D& v; c
Ø3.可用在用于高校管理中,根据挖掘规则可以有效地辅助学校管理部门有针对性的开展贫困助学工作; * d$ u0 A9 P: |Ø4.也可用在移动通信领域中,指导运营商的业务运营和辅助业务提供商的决策制定。 + Y3 s8 z" ]0 y$ lØ关联规则算法的主要应用是购物篮分析,是为了从大量的订单中发现商品潜在的关联。其中常用的一个算法叫Apriori先验算法。 & F: I5 {6 l e5 O1 y3 d$ S, V " @; `8 k" v0 xØ关联规则(association rule):是形如 X → Y 的蕴含表达式,其中X和Y是不相交的项集,即:X∩Y=∅。关联规则的强度可以用它的支持度(support)和置信度(confidence)来度量。9 L$ Y( A. n+ Y* T
Ø支持度:一个项集或者规则在所有事物中出现的频率,确定规则可以用于给定数据集的频繁程度。σ(X):表示项集X的支持度计数 2 i3 j F: _# P% y1 [) z- \Ø项集X的支持度:s(X)=σ(X)/N;规则X → Y的支持度:s(X → Y) = σ(X∪Y) / N j; j& o/ x% ~/ Y0 _- p
Ø通俗解释:简单地说,X==>Y的支持度就是指物品集X和物品集Y同时出现的概率。 2 H" x! w! [9 _Ø概率描述:物品集X对物品集Y的支持度support(X==>Y)=P(X n Y) 2 `/ Z) P2 w+ hØ实例说明:某天共有1000 个顾客到商场购买物品,其中有150个顾客同时购买了圆珠笔和笔记本,那么上述的关联规则的支持度就是15%。1 l9 e" x6 r. a& y% K/ {2 X+ r
##商品购物篮分析 数据科学实验 20210428 & J' W/ t7 o5 _, x! M& S }1 _ : n) P" i0 c3 o* T0 P#install.packages('arules') ' }' G8 z( N& C3 ^! L7 p4 {# 用来画很神奇的云词图!!9 `; J0 K1 b2 z/ [* ]- F' k
#install.packages('htmlwidgets') ! ]8 P; C8 O8 r: @% L4 U0 B$ y#install.packages('wordcloud2')/ n I! I2 e$ j7 a; X$ W/ T
#install.packages('ggplot2') 6 s* y J }/ ?: T* p% ]#install.packages('rlang')/ _. l0 d0 K4 t6 ]% Y b- I1 r) k
library(Matrix): h# g. b& U7 Y2 J4 Z
library(arules) 6 l9 _% G J" k, r# h/ q& G! W6 Jlibrary(wordcloud2). u1 \1 Y; k* v2 M0 q
library(ggplot2)$ B/ m+ p9 C9 u, N
library(rlang) 3 U) ?; F e! l6 m3 e, w& A+ V! i: O3 Q5 o
8 }& k/ p. f' ]) o3 T4 G- ?GoodOrder <- read.csv("/Users/janine/testt/GoodsOrder.csv") 7 L% M) X% ?( C% M/ {) fGoodsTypes <- read.csv("/Users/janine/testt/GoodsTypes.csv") " o. Y6 \- F hhead(GoodOrder,10); S. \& Z( c" _5 X