数学建模社区-数学中国

标题: 阿里天池赛冠军解决方案 [打印本页]

作者: 衫衫学长    时间: 2017-1-8 10:38
标题: 阿里天池赛冠军解决方案
本帖最后由 衫衫学长 于 2017-1-7 21:42 编辑
8 x6 U& ~. V; d  ?
1 ^. D$ s2 }9 `! ~6 D
! O1 r9 T8 B2 E3 b) {) f6 p
7 J- L5 E6 }. j7 l& K# {* K/ d6 s9 q) r* }0 w  u- W

: ?9 E  X" r1 c/ [* H+ n" f+ |- e/ ^& Z- |6 ~9 K* s* `

1 d, d3 m+ Z: {- L* q" s. u
( Z# |6 e- h8 S( x) f  J- z阿里天池赛冠军解决方案代码及说明:
" g# q8 O- S4 @7 ~ O2O-Coupon-Usage-Forecast-master.zip (713.84 KB, 下载次数: 4)
, w0 @9 w9 B& l! B4 I' s
$ t( m7 c' P9 a1 C9 [, d6 N% f- Q
7 b; m( c6 \( E; o
队伍简介
队伍名 “诗人都藏在水底”,三位队员分别是来自北大的weponcharles,来自中科大的云泛天音

  j6 w. w! N8 ^, r$ s赛题回顾
本赛题提供用户在2016年1月1日至2016年6月30日之间真实线上线下消费行为,预测用户在2016年7月领取优惠券后15天以内是否核销。评测指标采用AUC,先对每个优惠券单独计算核销预测的AUC值,再对所有优惠券的AUC值求平均作为最终的评价标准。

$ P( I2 o& w; F; y! ^6 p2 q+ y比赛背景

    随着移动设备的完善和普及,移动互联网+各行各业进入了高速发展阶段,这其中以O2O(Online to Offline)消费最为吸引眼球。据不完全统计,O2O行业估值上亿的创业公司至少有10家,也不乏百亿巨头的身影。O2O行业天然关联数亿消费者,各类APP每天记录了超过百亿条用户行为和位置记录,因而成为大数据科研和商业化运营的最佳结合点之一。
# P) R5 s; P8 v- r1 D    以优惠券盘活老用户或吸引新客户进店消费是O2O的一种重要营销方式。然而随机投放的优惠券对多数用户造成无意义的干扰。对商家而言,滥发的优惠券可能降低品牌声誉,同时难以估算营销成本。
# @, y: v2 u2 O3 G    个性化投放是提高优惠券核销率的重要技术,它可以让具有一定偏好的消费者得到真正的实惠,同时赋予商家更强的营销能力。本次大赛为参赛选手提供了O2O场景相关的丰富数据,希望参赛选手通过分析建模,精准预测用户是否会在规定时间内使用相应优惠券。


" o# ]. m, C0 J5 v2 q; ~9 n* L竞赛规则

    本次大赛分为初赛、复赛和决赛三个阶段,其中:初赛由参赛队伍下载数据在本地进行算法设计和调试;复赛要求参赛者在线进行数据分析和处理;决赛要求参赛者进行现场演示和答辩。具体安排和要求如下:


& r/ m3 F) l1 r1 L& `初赛(10月01日-11月10日). ~0 b# J) z7 z/ Z- H! t$ s; B$ A7 k
平台赋权(11月16日—11月17日)
8 U$ M8 D$ v  x6 G: A- `
复赛(11月18日—12月19日)3 x& l7 V+ H+ Y/ V6 {; `7 C
决赛(12月30日)4 ~  i& O# b% {2 S' \/ b) ?
赛题介绍:https://tianchi.shuju.aliyun.com/competition/introduction.htm?spm=5176.100068.5678.1.9Igo9O&raceId=231587
第一赛季数据:http://pan.baidu.com/s/1nvFG2ff

  @+ W/ F+ N' o1 T解决方案概述
本赛题提供了用户线下消费和优惠券领取核销行为的纪录表,用户线上点击/消费和优惠券领取核销行为的纪录表,记录的时间区间是2016.01.01至2016.06.30,需要预测的是2016年7月份用户领取优惠劵后是否核销。根据这两份数据表,我们首先对数据集进行划分,然后提取了用户相关的特征、商家相关的特征,优惠劵相关的特征,用户与商家之间的交互特征,以及利用本赛题的leakage得到的其它特征(这部分特征在实际业务中是不可能获取到的)。最后训练了XGBoost,GBDT,RandomForest进行模型融合。
% X* s# ]" i5 `
数据集划分
可以采用滑窗的方法得到多份训练数据集,特征区间越小,得到的训练数据集越多。以下是一种划分方式:
QQ截图20170108104153.png 0 O( y) `+ b* w4 n; ?
划取多份训练集,一方面可以增加训练样本,另一方面可以做交叉验证实验,方便调参。
* y' s! `, B" [* g0 c
特征工程
赛题提供了online和offline两份数据集,online数据集可以提取到与用户相关的特征,offline数据集可以提取到更加丰富的特征:用户相关的特征,商家相关的特征,优惠劵相关的特征,用户-商家交互特征。
另外需要指出的是,赛题提供的预测集中,包含了同一个用户在整个7月份里的优惠券领取情况,这实际上是一种leakage,比如存在这种情况:某一个用户在7月10日领取了某优惠券,然后在7月12日和7月15日又领取了相同的优惠券,那么7月10日领取的优惠券被核销的可能性就很大了。我们在做特征工程时也注意到了这一点,提取了一些相关的特征。加入这部分特征后,AUC提升了10个百分点,相信大多数队伍都利用了这一leakage,但这些特征在实际业务中是无法获取到的。
以下简要地说明各部分特征:

. s! N- J( T2 `' c; P模型设计与模型融合
基于以上提取到的特征,进行模型设计与融合。

/ W, [, p$ l; m# K, W/ \7 j1 A2 ~. h1 d$ }- D1 ]% N
原文链接:https://github.com/wepe/O2O-Coupon-Usage-Forecast
7 t. z9 K+ T5 m; @- m8 f( m% P. A5 b  d3 m0 j/ R, Y

- |7 v: W5 e3 @0 K
; T+ @; b; l2 j7 d9 X( o2 A$ K3 d  K! l

作者: data-science    时间: 2017-1-8 13:05
顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶6 Q1 t) I7 }# J2 Y/ j" H

作者: VOW    时间: 2017-1-8 17:16
阿里天池,听过听过~~~~~~~~~~~~~~·, m/ v/ F) Z" z- E* ~





欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5