查看: 4427|回复: 2

KXEN的客户分群

字体大小: 正常放大

seawolff

5 主题	3 听众	26 积分

升级 22.11%

该用户从未签到

电梯直达

1^#

发表于 2007-6-12 20:00 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

<h4 class="TextColor1" id="subjcns!A20FD7ACCE991E94!378" style="MARGIN-BOTTOM: 0px;"></h4><div class="bvMsg" id="msgcns!A20FD7ACCE991E94!378">
客户分群

客户分群是一个重要的商业问题，企业对不同的客户群要提供个性化的客户服务和产品，因此，在产品和服务的设计上，必须要对客户群有一个了解，所以，我们往往借助客户的个人资料，行为属性和消费信息等方面的属性，对客户进行分群，以加深对客户的理解，制定相应的营销策略。
本文借助KXEN来阐述客户分群中存在的一些问题。

KXEN操作界面

KXEN是一个引擎，所以，它有很好的API来供集成商使用，除此之外，它也提供两种最终用户的界面：KXEN 建模向导（JNI），一个用JAVA做的图形界面，最常用的，本文的工作也是借助这个图形界面；Kxshell，是运行KXEN脚本的命令行界面，这个界面可以作为建模向导的一个补充，因为JNI的界面并没有提供模型的所有参数设置（譬如，在编码阶段对于连续值的BIN数目），所以，可以在脚本中来改变这些缺省值，进行模型的进一步优化。
KXEN建模向导是一种“傻瓜式”的操作，只需简单选择参数，然后点击“下一步”即可，这与CLEMENTINE和SAS/EM的“拖拉式”方式不同，相比而言，KXEN的操作方式更为简单。

KXEN建模流程

如图1，选中cluster后，点击下一步，出现图2界面，在这里，完成两步工作，一是进行数据集的选择，二是完成数据集的分割方式的选择。KXEN支持多种数据格式，如文本，CSV，XLS，也通过ODBC支持来自不同数据库的数据，同时，对SAS的数据格式有很好的支持。在建模方式上，KXEN通过图3的方式，把初始的数据集按一定的比例分为3个子集，主要的目的是进行模型的选优以及最后的模型性能汇报。另外值得提及的一点是，KXEN在建模的时候不用额外的磁盘空间来存储数据，我认为这是一种很好的处理方式。点击下一步后，就是数据的导入界面（图4），可以进行数据的类型识别，自动识别的过程是有一定的误差的，当进行了正确的定义之后，可以把正确的定义保存为新的数据文件，下次把这数据描述文件（相当于元数据文件）也载入就可以了。在这个界面，还可以打开新的窗口来进行简单的数据探索（略）。
下一步是变量的选择界面，这里要说明的是，KXEN支持两种分群的方法：有监督分群和无监督分群，分群一般来说都是无监督的学习方法，那么，有监督分群是什么意思呢？举个例子，假设要对一些人进行分群，有如下属性：年龄，婚姻，工作状况，当把这些属性放在一起时，压根就没有办法来处理它们之间的关系，机器学习不能识别年龄差别10岁与婚否的差别哪一个更大一些，也就是说，我们根本没有办法定义一个距离的标准（从这个意义上，把这些属性放在一起而直接丢给计算机去做压根就是错误的，尽管我们经常这样来做），我们必须来定义一个距离的标准，譬如，我们知道这些人有变态和不变态两类，那么，我们就可以把变态与否定义为目标变量（分群的监督变量），这样，依据此变量，对于解释变量就可以做一些预处理，也就是有了一个定义距离的指标，这样才能够做一个正确的分群（可能的结果是年龄差别对于分群没有太大影响，而婚否影响是比较大滴）。这相当于告诉KXEN：我要把我的客户群分成几类，请尽量不要把变态的和不变态的混在一起。
点击下一步（图6），就进入了分群参数的设置，只有一个参数，就是群的数目，对于算法的参数设置，我认为最好把参数的名称尽量的用商业语言表述，不要搞出一些数学化的术语，如果实在不能通俗化，就干脆放到“高级”里面，不要放在外面唬人，KXEN的设计做得很好。请注意这里有个选项：“计算SQL表达式”，这再次显示了KXEN的过人之处，其实，最基本的Kmeans聚类的结果是不能用SQL表达式来表述的，但是，SQL表达式却增强了结果的解释性，十分符合人们的思维习惯，尽管用SQL表达式的表述对于模型的性能打了折扣，但是却十分可取。
KXEN的运算速度是非常快的，这也是KXEN极力宣传的一点（一般得到一个分群模型，加上复杂的预处理，需要几天的时间，而KXEN只需几个小时），分群完毕后，就是模型的结果显示，对于模型的结果解析，再次显示了KXEN的过人之处（图7）。一般的工具只是把模型应用到新的数据集，得到预测结果，而没有花费精力去进行结果的解析。
对结果的解析上，把结果尽可能的转化为对商业用户有意义的解释，这是非常重要的，没有这一点，算法仅仅是算法，数据挖掘也不是商业智能（在某种程度上商业智能就是商业傻瓜，更普遍意义上，白痴和天才也是二位一体）。
对于一个聚类的模型，KXEN的结果中，会有聚类簇谱（cluster profile）的显示（图8），我们可以针对每个变量来观察变量在簇内分布与总体分布的差异（还有统计量KL与Chi square值），进而了解簇的特征；可以显示簇的SQL语言描述；训练集，验证集，测试集的偏差等。对于有监督分群，可以有针对目标变量的性能曲线显示（ROC，LIFT等七种曲线），变量的条带重要性显示等，这一块内容是相当细的，也十分有用。
模型建好之后，可以进行“偏差分析”、“模型应用”和“模拟分析”，这些是很容易理解的，值得注意的是，“模拟分析”是一个不错的工具，可以加深对模型的理解。


KXEN的分群算法

KXEN的算法没有什么高明的地方，它仍然是沿用最常用的Kmeans算法；它的高明之处有两点，一是在算法应用之前的编码工作，它帮助用户处理缺失值（Missing），奇异值(Outliers)，做BIN，标准化等，既然Kmeans算法之前都得进行这样的预处理，那么一个好的工具就应该自动化这些处理过程，KXEN就做到了这一点，能够做到这些也说明KXEN的设计者对于算法的深层次的理解。一般来说，预处理的工作占一个模型创建过程的60%的时间，那么，KXEN这样的做法是非常有意义的，省时，并且把这些需要专业统计学知识才能够做的工作用工具来替代了，也减少了人为处理所带来的错误。当然，自动化不是万能的，我们可以做一个模拟来说明KXEN的缺陷。
如图9的两簇点，在二维空间中很明显的分作两簇，我用R中的Kmeans函数，轻易地得到正确的聚类结果，但是，用KXEN分群时，却得到了图10的错误结果，这应该是KXEN的自动编码（K2C）惹的祸。
这再次证明，数据挖掘不是魔术，仅仅是算法而已，借用George E.P. Box（时间序列方面的权威）的一句话：所有的模型都是错误的，但是有些是有用的（All Models Are Wrong But Some Are Useful），所以，万不可过多相信模型。一个好的工具不意味着一定会得到好的结果。“垃圾进，垃圾出”（trash in，trash out）永远是对的。要想得到一个好的结果，必须对问题和工具都有好的理解。工具某种程度的自动化，同时也必定会限制它在另外一方面的机能（上帝给你打开一扇窗，同时会关闭一扇门，是这个道理吧）。 
</div>

zan