原发表于数学中国微信公众号,关注数学中国微信公众号可查看更多。请用电脑查看,手机版图片可能无法正常显示。
1 f8 _6 w7 b- o3 m" M俗话说“物以类聚、人以群分”,面对大量的数据和变量,如何快速地将具有相近特质的样本或变量分在一类,从而达到降维和寻找共性的目的就成为一个重要的研究方向.聚类分析正是这样一种快速将大量数据分类的统计方法,有很强的应用价值.其宗旨是根据数据样本的性质,将具有相近特质的样品或变量分在一组,既可以根据不同组的特性进行不同的处理,也可以对同组数据进行更进一步的分析.聚类分析可以将相近数据归入一类,从而为决策者提供帮助,也能大幅减少研究对象的数量,从而达到降维的作用. 在没有先验知识的情况下,聚类分析能合理地按样品或变量各自的特性对大量样品进行分类.聚类源于很多领域,可以将数据分类到不同的类或者簇,从而使得同一类中的对象非常相近,而不同类间的对象差异很大. 在银行业务中,聚类分析可以分组聚类出具有相似消费行为的客户.在分析客户的共同特征后,企业可以更好地了解自己的客户,向不同类的客户提供不同的服务.在保险续保业务中,聚类分析通过相关指标来确定保单持有者的分类,从而找出哪些分类才是最有可能的续保人群,是保险业务员的重点服务对象.在生物领域,聚类分析可以对基因等生物特征进行分类,从而获取或加深对种群固有结构的认识. 1 空气质量分类问题(Q型聚类) 问题描述 随着雾霾的增多,空气质量逐渐成为人们关注的热点.空气污染物中包括多种不同种类和来源的污染物,如划分颗粒物大小标准的PM2.5指标、SO2和NO2的含量等.气象部门会对城市的空气质量进行分类,如何根据这些指标对空气质量进行比较准确的分类呢? 思路分析 一些地方采取空气质量指数的办法来对各城市的空气质量进行评分,除此之外,还可以采用聚类分析的方法对城市的空气质量进行分类. 模型建立 首先从环保部官网上选取2016年11月的31个城市空气质量状况,挑选了4个常见的空气质量指标:PM2.5、PM10、SO2含量和NO2含量作为评判依据.具体数据如表2.15所示. 表2.15 空气质量分类模型数据 打开统计软件SPSS,将上述数据输入后,采用数据—分类—系统聚类,选择对个案进行分类,分类依据的变量为PM2.5、PM10、SO2和NO2,方法选择组间连接,度量标准选择平方欧式距离. 模型求解 根据上述数据及方法、标准选择,得到的结果如图2.14所示. 根据聚类图和实际情况,可以将31个城市根据受污染的程度分为4类. 第1类为严重污染城市,包括兰州、西安、石家庄和太原这4个城市,这些都是重工业内陆城市,少雨少风,因此污染非常严重,且不易缓解. 第2类为重度污染城市,包括沈阳、哈尔滨、西宁、呼和浩特、济南、成都、北京、天津、郑州、拉萨和银川这11个城市.这些城市污染程度比较高,属于重度污染. 第3类为中度污染城市,包括重庆、合肥、杭州、南京、武汉、南昌、长沙、广州、上海、长春和乌鲁木齐这11个城市.这些城市污染程度相比较轻,属于中度污染. 图2.14 空气质量分类问题变量聚类结果 第4类为轻度污染城市,包括福州、南宁、贵阳、昆明和海口这5个城市.这些城市环境优美,属于沿海城市或旅游城市,工业污染少,污染相对较轻. 从上述分类结果可以看出,聚类分析的效果非常符合实际情况,因此可以采用聚类分析的方法对城市的空气质量状况进行分类. 当然其缺点在于聚类分析是根据数据进行系统性的分类,对每个分类没有一个固定的指标可以用来标识. 2 食品分类问题(R型聚类) 问题描述 某食堂需要制订食品采购策略,因而希望针对不同食品进行分类,从而帮助制订相应的采购策略.现有2012—2016年20种食品每月价格的数据,试用聚类分析对这20种食品进行分类. 思路分析 这是对变量的聚类,可以采用pearson相关系数作为变量间的聚类距离,使用类平均法定义类间距离,采用SPSS软件对变量进行聚类. 模型建立 首先考察该食堂提供的20个品种食品的类别,按照传统归类,可以分为蔬菜类、禽蛋类、肉类、豆制品类、米面类等,其部分数据如表2.16表示.现在需要根据不同时间段的价格走势,对这些食品进行另一种分类,将价格走势类似的食品归在一类,从而可以帮助食堂管理者根据不同类别,制订不同的采购策略. 这是对变量的聚类,由于希望同类食品价格趋势相似,故可以采用pearson相关系数作为变量间的聚类距离,使用类平均法定义类间距离,采用SPSS软件对变量进行聚类. 模型求解 打开系统软件SPSS,将表2.16中数据输入后,采用数据—分类—系统聚类,选择对变量进行分类,分类依据的变量为20种不同食品,采用pearson相关系数作为变量间的聚类距离,使用平均法定义类间距离,得到的结果如图2.15所示. 图2.15 食品分类问题变量聚类结果 根据聚类的结果和人为的需要,一共可以分为4类:第1类包括白素鸡、豆奶、老豆腐、香干、厚百叶,这一类都是豆制品;第2类包括大白菜、花菜、卷心菜、光莴笋、青菜,这一类都是蔬菜;第3类包括冻碎肉、冻大排、冻小排、猪爪、猪腿肉、带皮方肉,这一类都是猪肉;第4类包括鸡全腿、半片鸭、鸡翅根、箱鸡蛋,这一类都是禽蛋类. 可以看出分类结果和食品的种类非常接近,也和它们的价格走势非常接近,聚类结果有很好的指导意义. 表2.16 食堂分类问题部分数据(元/500g) 3 电商客户问题(RFM模型) 问题描述 每年双11都是百姓消费的一次大狂欢.届时,早就计划好的人们在各种购物平台上购买看中的折价商品,每年这个时候的消费金额惊人!在这场狂欢之中,细心的商家会保持冷静,思考如何让自己最大化地赢利.这其中包括如何刺激老客户在双11继续购买,如何吸引新客户购买,以及如何留住在双11偶然购买的客户. 通过采取合适的策略,不仅使商家能在双11狂欢中赢利更多,更能让商家吸引住优质客户,有利于商家的长远发展. 思路分析 在对客户关系的管理分析中,RFM模型是经常使用的一种类聚类分析方法.RFM指最近一次消费(Recency)、消费频率(Frequency)和消费金额(Monetary)3个指标.RFM模型将根据这3个重要指标评判用户的购买潜力.RFM分析侧重对客户行为的分析——客户在做些什么?他们的这些行为会对将来的购买产生什么样的影响?能否通过客户过去的行为预测他们将来的购买行为?通过这些分析,进而指导商家有针对性地开展营销. 最近一次消费这一指标涉及客户上一次购买距今的时间,上一次消费时间越近的客户越忠实,对商家提供的宣传也最有可能会有反应.消费频率指客户在限定时间内购买的次数,经常购买的客户可以说是满意度高的客户.消费金额是商家特别关注的指标,消费金额高的客户自然会受到商家更好的待遇. 客户最近一次消费与消费频率对客户的响应率有非常重要的影响,这与消费心理学有很大关系.绝大多数客户在购物后,会在一段时间内保持一种冲动情绪,这是人类情感的共性.如果客户在某店铺购物后,很快就收到来自那个店铺的推送信息,客户一般会马上阅读,因为客户会认为可能会有与自己紧密相关的信息.而在一年后,如果客户依然收到这个店铺推送给自己的关于促销产品的信息,客户也许不会再去阅读,因为很可能其不再对相关信息感兴趣.经常在某一店铺购物的客户,其满意度、品牌信任度和忠诚度等都会更高.所以,客户最近购买情况与客户购买频率对于分析店铺对客户的影响率有着至关重要的影响. 保证了客户响应率,客户的消费金额才能逐渐地提高.如果没有大客户的高消费,商家可以逐步激发小客户的消费潜力,这样的过程是大多数商家逐步发展的一种方式. 模型建立 将所有客户记录依次按3个关键指标进行排序后,分为5个相等数量的群体,并把每一个五等分的代号放入每一个数据库记录里,标上1~5的相应数字,就完成了对客户数据的RFM编号.举例来说,将某一个客户的购买信息在按购买时间排序后,其购买时间属于五等分客户群里最新的日期,则此客户的R编码为5;继续将此客户按购买频率排序后,发现其属于五等分客户群里第2类客户,则此客户的F编码为2;再接着把这个客户按消费金额排序,发现它在第3类客户里,则它的M编码为3,将3个编码合并起来,此客户的RFM编码就是523,这个简单的3位数代码,分别代表此客户的最近购买情况、购买频率和消费金额. 模型求解 借助软件,RFM编码工作可以很快完成,每3个数字将形成一个RFM单元,按“三五”原则,总计会得到5×5×5=125个RFM单元代码.可以非常方便地对不同单元的客户进行RFM的特征比较,并根据需要选择合适的客户群来做营销推广. 大商家常常会有几十万、几百万甚至近千万级别的交易客户,直接套用“三五”原则即可.然而,一般商家的交易客户数量往往要小得多,很多商家的交易客户数量最多也仅为万级或千级,如果这时仍旧使用125个RFM单元,那么每个单元里的客户数量将会太少以致失去细分的意义.一般每个RFM单元的客户数量不应过少,这时可将RFM单元总量下调.例如,5个最近购买情况×2个购买频率×2个消费金额=20个RFM单元. 根据RFM单元量级大小,客户层可以大致分为8组:重要发展客户、重要价值客户、重要保持客户、重要挽留客户、一般发展客户、一般价值客户、一般保持客户和一般挽留客户,具体如图2.16所示. 图2.16 客户层分组 根据分组,商家可以制订不同的推销策略. • 重要价值客户:最近消费时间近、消费频率和消费金额都很高,这是VIP客户. • 重要保持客户:最近消费时间远,但消费频率和金额都很高,说明这是一个一段时间没来的忠实客户,我们需要主动和他保持联系. • 重要发展客户:最近消费时间较近、消费金额高,但频率不高,说明这是一个忠实度不高,但很有潜力的客户,必须重点发展. • 重要挽留客户:最近消费时间较远、消费频率不高,但消费金额高的用户,可能是将要流失或者已经流失的客户,应当实行挽留措施. • 一般价值客户:对于近期有付费,但是很少有新的付费行为的客户,我们的目标是刺激他们继续购买。很多调查研究指出,重复购买以及规律性的付费可以给商家带来巨额营收. • 一般保持客户:经常付费,但是已经是在很久以前了,说明忠实客户即将流失,我们的目的是提醒他们.有时候一个信息推送也许就够了;或者我们可以跟这些用户进行沟通,了解他们为什么想离开. • 一般挽留客户:很少付费并且已经是在很久以前了,说明这是已流失的客户,并不是忠实客户.我们可以建议他们有所行动——对我们来说也许并不是有利可图——但这可以帮我们挽回客户并刺激他们继续消费.或者至少可以尝试寻找客户流失的原因,通过反馈来调整产品. 下面结合一个具体案例来加深理解. 广州某公司用了消费金额(M)作为级别划分的主要依据,在该公司的RFM分析模型里,根据消费金额(M)指标划分的客户有5级,M5是消费金额最高的金卡会员,该公司为金卡和银卡会员提供比普通会员更高的积分倍率.该公司根据消费频率(F)也将客户划分了5个级别,F5级是最忠实的会员,对F值较高的会员,该公司会结合会员的住址信息和所购商品信息,推测他们是否为附近居民,以便在促销期间加强对此部分会员的联系.但在最近消费时间(R)上,该公司采用了把消费频率(F)和最近消费时间(R)相结合的方法进行评估,如果客户的最近一次消费时间与到店频率偏差很大,该公司会在客户关系管理系统里产生客户流失预警标识. 而将R、F、M这3个指标结合,则使该公司有了更具针对性的会员营销策略.对3个值都很低的会员,营销部门会把他们定义为“边缘会员”并减少相关的营销预算.对到店频率(F)低但消费金额(M)高的会员,结合他们的最近消费时间(R),将他们定位为“团购会员”,这些会员虽然购物次数不多,但每次到店都会有很高的采购金额.该公司在春节、端午、中秋等重要节日前,都会特别强化与这部分会员的联系.而母亲节前,该公司又会先根据会员的人口特征信息把相关年龄层次会员筛选出来,再根据消费金额(M)和到店频率(F),把最有购买倾向的客户挖掘出来.结合客户所购商品的特点,该公司还会基于RFM模型选择精准的目标会员,推出例如“文具节”或“泰国食品节”等各种主题的促销. 在每一次促销活动结束后,该公司会通过CRM系统里收集到的会员消费数据进行促销活动效果评估.如果定位的目标客户在促销期内并没有消费足够数量的预期商品,则说明促销主题对该会员没有吸引力,营销部门要根据评估效果调整下一步的营销策略. RFM指标结合客户的商品购买信息,可以让该公司了解会员到店购买的都是什么商品,本月与上月的变化在哪里,最有价值的客户是哪些,他们买的商品是什么口味的……这些信息可以用来指导该公司调整采购商品的策略. RFM信息的获得,依赖于会员刷卡频率的提升.该公司在这方面也想了很多办法.他们把每个月的20日和30日定为会员日,客户在这两天的消费可能得到两倍的积分奖励;在店庆和主题促销期间,该公司会临时指定会员日并为会员提供会员价.每位会员生日当天,该公司会发出生日祝贺短信,并可凭会员卡去服务台领取生日礼物.每次客户购物如果没有购买购物袋,该公司会奖励给会员环保积分.年底前,该公司会提前一个月通过网站广告、户外广告、手机短信和广播等多种方式提示会员年度有效积分的换购和清零,这对带动年底的会员消费也有很大作用. 通过运用RFM模型,该公司的业务有了长足的发展.
" k$ T: K8 \& x7 ~7 H8 ]+ v- b& `& D. ^, X, j$ K
0 V6 T7 { U7 ?0 f
; Q- c: T% Q6 d, n& P) O
. H! R, J. N/ n* v' n' m, w/ _$ Y3 a$ K/ G, {
|