本帖最后由 衫衫学长 于 2017-1-7 21:42 编辑
% P6 @- S2 c' [- s+ K! P' H1 Q+ j( I% E
, y# B7 o3 I4 Y& G8 n
& p, s0 i" ~' [9 K1 x1 `6 U4 l5 [ N/ {% s+ y* _$ f' K
1 X p) r+ F O" I3 ^4 i; \5 f5 n( V$ k3 t. P: Y1 z
) L K' A) t" ^7 i* K
3 g; b7 h: q% |! `, Z" ^阿里天池赛冠军解决方案代码及说明:
4 ^! e4 B0 N3 b. s& ~8 l
O2O-Coupon-Usage-Forecast-master.zip
(713.84 KB, 下载次数: 4)
9 q3 k3 h) G, O9 k
0 D2 W8 W3 j! e& U4 c3 [& _. w, ^) R( ~3 R- o
队伍简介( m- y3 F9 ?0 d W: Y2 G5 V: [" P+ ^
赛题回顾本赛题提供用户在2016年1月1日至2016年6月30日之间真实线上线下消费行为,预测用户在2016年7月领取优惠券后15天以内是否核销。评测指标采用AUC,先对每个优惠券单独计算核销预测的AUC值,再对所有优惠券的AUC值求平均作为最终的评价标准。 $ X, u) J( H E! g9 e1 T3 N: q
比赛背景 随着移动设备的完善和普及,移动互联网+各行各业进入了高速发展阶段,这其中以O2O(Online to Offline)消费最为吸引眼球。据不完全统计,O2O行业估值上亿的创业公司至少有10家,也不乏百亿巨头的身影。O2O行业天然关联数亿消费者,各类APP每天记录了超过百亿条用户行为和位置记录,因而成为大数据科研和商业化运营的最佳结合点之一。 & C9 h U& C7 s, j* j4 l
以优惠券盘活老用户或吸引新客户进店消费是O2O的一种重要营销方式。然而随机投放的优惠券对多数用户造成无意义的干扰。对商家而言,滥发的优惠券可能降低品牌声誉,同时难以估算营销成本。
8 P/ U* j+ x6 q 个性化投放是提高优惠券核销率的重要技术,它可以让具有一定偏好的消费者得到真正的实惠,同时赋予商家更强的营销能力。本次大赛为参赛选手提供了O2O场景相关的丰富数据,希望参赛选手通过分析建模,精准预测用户是否会在规定时间内使用相应优惠券。
0 R+ p/ f, ]$ f竞赛规则 本次大赛分为初赛、复赛和决赛三个阶段,其中:初赛由参赛队伍下载数据在本地进行算法设计和调试;复赛要求参赛者在线进行数据分析和处理;决赛要求参赛者进行现场演示和答辩。具体安排和要求如下: ( _7 B, y z* g2 w& Z
初赛(10月01日-11月10日)- 1、参赛队伍10月07日可下载数据,并在本地调试算法,提交结果。若参赛队伍在两次评测之间多次提交结果,新结果版本将覆盖旧版本;
- 2、从10月08日18:00起,系统每天进行4次评测和排名,评测开始时间为每天00:00, 06:00, 12:00, 18:00。按照评测指标从高到低更新排行榜,排行榜将选择参赛队伍在本阶段的历史最优成绩进行排名展示;
- 3、本竞赛排行版采用A/B榜设置,使用测试集的50%数据作为A榜测试集,另外50%作为B榜测试集,最终线上成绩与排名以B榜成绩与排名为准(B榜成绩仅在初赛最后一天公布);
- 4、初赛截止时间是11月10日18:00,同时满足以下条件的队伍进入复赛:
" j' `$ t6 d" o! k8 L9 i- a. 在天池网站和CCF大赛官方完成注册且“昵称/姓名/邮箱/队名和队伍结构“一致;
- b. 通过支付宝实名认证;(认证入口:天池网站-个人中心-认证-支付宝实名认证,要求初赛截至前完成认证,要求11月14日00:00前完成认证)
- c. 初赛成绩排名前100名;
: w5 \$ D' L* J a. k, F
" M) f+ `. ^+ l' u% I- p平台赋权(11月16日—11月17日)- 1、复赛需通过天池官网进入数加平台进行参赛;
- 2、11月16日10:00开始赋权,11月17日12:00完成赋权;
- 3、复赛队伍获得数加平台权限后,比赛详情页面左侧将显示“数加”菜单,点击进入平台;也可直接点击这里登录(注:登录数加平台需RAM子账号, RAM子账号请前往个人中心"我的RAM账号"中获取);
- 4、数加平台使用手册请查看这里
, {- h4 b; |. ]% c1 g
2 V0 u( ]5 K0 U5 @1 Q复赛(11月18日—12月19日)- 1、复赛的数据不可下载,下载数据将视为违规自动失去比赛资格;
- 2、选手需要使用平台完成数据处理、建模、算法调试、产出结果等所有环节,可使用基于MaxComputer的Map Reduce、SQL、GRAPH及平台集成的各种机器学习算法包/模型;
- 3、从11月18日18:00起,系统每天进行4次评测和排名,评测开始时间为每天00:00, 06:00, 12:00, 18:00,按照评测指标从高到低进行排序更新排行榜;
- 4、本竞赛排行版采用A/B榜设置,使用测试集的50%数据作为A榜测试集,剩余50%作为B榜测试集,最终线上成绩与排名以B榜成绩与排名为准(B榜成绩仅在复赛最后一天可见);
- 5、复赛截止时间是12月19日18:00,复赛成绩排名前5名的选手将受邀参加决赛的现场答辩;; p' x$ T8 [* ^7 X) f' W6 {
积分发放:进入第二赛季的队伍,会有相应排名的积分奖励 (相应积分规则详见个人中心的积分)
" d8 ]& Y2 k9 I* Y% g
7 C6 W$ F8 y6 r* a8 N- y决赛(12月30日)- 决赛将以现场答辩会的形式进行,具体形式另行通知
2 x4 a; R/ G( `$ i' Y: I, P
" _& t X3 }# y8 j: p4 L$ b0 _赛题介绍:https://tianchi.shuju.aliyun.com/competition/introduction.htm?spm=5176.100068.5678.1.9Igo9O&raceId=231587
/ g) z0 V9 _+ @4 J$ L解决方案概述本赛题提供了用户线下消费和优惠券领取核销行为的纪录表,用户线上点击/消费和优惠券领取核销行为的纪录表,记录的时间区间是2016.01.01至2016.06.30,需要预测的是2016年7月份用户领取优惠劵后是否核销。根据这两份数据表,我们首先对数据集进行划分,然后提取了用户相关的特征、商家相关的特征,优惠劵相关的特征,用户与商家之间的交互特征,以及利用本赛题的leakage得到的其它特征(这部分特征在实际业务中是不可能获取到的)。最后训练了XGBoost,GBDT,RandomForest进行模型融合。 / [9 I U/ B T8 ~
数据集划分可以采用滑窗的方法得到多份训练数据集,特征区间越小,得到的训练数据集越多。以下是一种划分方式:
. L0 _0 C5 T5 q* x
划取多份训练集,一方面可以增加训练样本,另一方面可以做交叉验证实验,方便调参。 % j9 y* W5 E" h$ ^+ }
特征工程赛题提供了online和offline两份数据集,online数据集可以提取到与用户相关的特征,offline数据集可以提取到更加丰富的特征:用户相关的特征,商家相关的特征,优惠劵相关的特征,用户-商家交互特征。 另外需要指出的是,赛题提供的预测集中,包含了同一个用户在整个7月份里的优惠券领取情况,这实际上是一种leakage,比如存在这种情况:某一个用户在7月10日领取了某优惠券,然后在7月12日和7月15日又领取了相同的优惠券,那么7月10日领取的优惠券被核销的可能性就很大了。我们在做特征工程时也注意到了这一点,提取了一些相关的特征。加入这部分特征后,AUC提升了10个百分点,相信大多数队伍都利用了这一leakage,但这些特征在实际业务中是无法获取到的。 以下简要地说明各部分特征: * P9 O( y5 s' n9 t
模型设计与模型融合基于以上提取到的特征,进行模型设计与融合。 单模型 第一赛季只训练了XGBoost单模型提交,连续几周位居排行榜第一位。 第二赛季训练了XGBoost,GBDT,RandomForest三种单模型,其中GBDT表现最好,XGBoost次之,RandomForest相比之下最差。GBDT和XGBoost单模型在第二赛季仍然名列Top3,融合后效果更佳,尝试了以下两种方法: 加权融合 得到了单模型的预测结果后,直接将概率预测值进行加权融合,我们简单地用0.65 * GBDT + 0.35 * XGBoost就得到了第一的成绩。 Blending模型 我们尝试了两层的blending模型,首先将训练集分为两部分(D1和D2),一部分用于第一层(level 1)的训练,另一部分用于第二层(level 2)的训练。level1 在D1上训练了4个XGBoost,4个GBDT,4个RandomForest,将这些模型的预测结果作为level2的feature,在D2上训练第二层模型。Blending模型的结果相比单模型有细微的提升,但这点提升相对于模型复杂度带来的计算代价显得微不足道。
' N) ]5 f8 H' g) Y9 `9 b 8 _' n# Z: j0 H: y$ D
# u- ]" i; N, S& |# }
原文链接:https://github.com/wepe/O2O-Coupon-Usage-Forecast% p! e7 x7 v3 f1 j$ f+ B
h# S6 G( B2 H3 X
. Q6 ^7 v8 K2 w* b7 X
% h+ \5 T& v( z9 y A, t9 x& T
; i$ F9 H1 e b; u* x! ]; m# H5 j: E |