数学建模社区-数学中国

标题: 阿里天池赛冠军解决方案 [打印本页]

作者: 衫衫学长    时间: 2017-1-8 10:38
标题: 阿里天池赛冠军解决方案
本帖最后由 衫衫学长 于 2017-1-7 21:42 编辑 - _  q' Q5 W: F; ^+ o) M
) k5 A. b" z: R& H4 a& ^+ z

0 m; ]% ~) W+ o! B7 G
; l3 I- ]; w+ s% A5 C# \6 G. M: y$ C
# D3 {# `: z6 J' ^$ ~
- B- R- O  Z* H/ G

0 E- T- V0 l/ C& ^
4 u& N/ J! h" B& t" Q! j4 r% C# D阿里天池赛冠军解决方案代码及说明:. g+ t+ I1 p- L5 P; b' a3 N7 ]2 m
O2O-Coupon-Usage-Forecast-master.zip (713.84 KB, 下载次数: 4) ) N& h# _* t6 M. M5 H% y; M
8 p$ [( Q* j* p6 n$ Q

3 t0 d7 h, Z1 }; V' ]
队伍简介
队伍名 “诗人都藏在水底”,三位队员分别是来自北大的weponcharles,来自中科大的云泛天音

9 f; P, Y/ D' G赛题回顾
本赛题提供用户在2016年1月1日至2016年6月30日之间真实线上线下消费行为,预测用户在2016年7月领取优惠券后15天以内是否核销。评测指标采用AUC,先对每个优惠券单独计算核销预测的AUC值,再对所有优惠券的AUC值求平均作为最终的评价标准。

; F9 I3 K* v' U3 N- G% F  b" B比赛背景

    随着移动设备的完善和普及,移动互联网+各行各业进入了高速发展阶段,这其中以O2O(Online to Offline)消费最为吸引眼球。据不完全统计,O2O行业估值上亿的创业公司至少有10家,也不乏百亿巨头的身影。O2O行业天然关联数亿消费者,各类APP每天记录了超过百亿条用户行为和位置记录,因而成为大数据科研和商业化运营的最佳结合点之一。 & f3 y4 ~  O% m( r0 `2 J8 L
    以优惠券盘活老用户或吸引新客户进店消费是O2O的一种重要营销方式。然而随机投放的优惠券对多数用户造成无意义的干扰。对商家而言,滥发的优惠券可能降低品牌声誉,同时难以估算营销成本。 ( A+ W, |3 ^  @0 q
    个性化投放是提高优惠券核销率的重要技术,它可以让具有一定偏好的消费者得到真正的实惠,同时赋予商家更强的营销能力。本次大赛为参赛选手提供了O2O场景相关的丰富数据,希望参赛选手通过分析建模,精准预测用户是否会在规定时间内使用相应优惠券。

* b8 R7 Q+ T% A. K# W
竞赛规则

    本次大赛分为初赛、复赛和决赛三个阶段,其中:初赛由参赛队伍下载数据在本地进行算法设计和调试;复赛要求参赛者在线进行数据分析和处理;决赛要求参赛者进行现场演示和答辩。具体安排和要求如下:


" t* q! ~# {$ ]( k3 j' j/ m& Q. V初赛(10月01日-11月10日)
: x1 j6 X, \  R8 g0 O4 Q4 _
平台赋权(11月16日—11月17日)  ^4 Y5 m6 I& T  r" \, x
复赛(11月18日—12月19日)% m- B% d' Z4 d
决赛(12月30日)7 X* T5 Q% N3 K/ F5 _' J; e
赛题介绍:https://tianchi.shuju.aliyun.com/competition/introduction.htm?spm=5176.100068.5678.1.9Igo9O&raceId=231587
第一赛季数据:http://pan.baidu.com/s/1nvFG2ff

. G1 u; k# J8 c+ v: `1 ]; P解决方案概述
本赛题提供了用户线下消费和优惠券领取核销行为的纪录表,用户线上点击/消费和优惠券领取核销行为的纪录表,记录的时间区间是2016.01.01至2016.06.30,需要预测的是2016年7月份用户领取优惠劵后是否核销。根据这两份数据表,我们首先对数据集进行划分,然后提取了用户相关的特征、商家相关的特征,优惠劵相关的特征,用户与商家之间的交互特征,以及利用本赛题的leakage得到的其它特征(这部分特征在实际业务中是不可能获取到的)。最后训练了XGBoost,GBDT,RandomForest进行模型融合。

+ t; T, K& n) o# `" k& C' w/ b0 O# F. p数据集划分
可以采用滑窗的方法得到多份训练数据集,特征区间越小,得到的训练数据集越多。以下是一种划分方式:
QQ截图20170108104153.png
- }. k) l' ?) g- u$ T  l8 ^1 [
划取多份训练集,一方面可以增加训练样本,另一方面可以做交叉验证实验,方便调参。

% x4 G6 B" P1 d9 X特征工程
赛题提供了online和offline两份数据集,online数据集可以提取到与用户相关的特征,offline数据集可以提取到更加丰富的特征:用户相关的特征,商家相关的特征,优惠劵相关的特征,用户-商家交互特征。
另外需要指出的是,赛题提供的预测集中,包含了同一个用户在整个7月份里的优惠券领取情况,这实际上是一种leakage,比如存在这种情况:某一个用户在7月10日领取了某优惠券,然后在7月12日和7月15日又领取了相同的优惠券,那么7月10日领取的优惠券被核销的可能性就很大了。我们在做特征工程时也注意到了这一点,提取了一些相关的特征。加入这部分特征后,AUC提升了10个百分点,相信大多数队伍都利用了这一leakage,但这些特征在实际业务中是无法获取到的。
以下简要地说明各部分特征:
/ ?6 [" s/ I+ x, K. x9 `
模型设计与模型融合
基于以上提取到的特征,进行模型设计与融合。
; _8 i, B7 q" ?- Y
) y0 K$ O; H+ ]
原文链接:https://github.com/wepe/O2O-Coupon-Usage-Forecast9 \$ m. @. C: [: f2 j0 ~$ y6 ?
0 [( k. b9 r0 p4 M& F+ d, u
1 t" |# d9 t0 i8 c  u- y6 L

- {, Z  [  s* Q/ Y$ Q0 s1 A
" v; a  X" ?9 z" l
作者: data-science    时间: 2017-1-8 13:05
顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶" M$ t; j( I( q

作者: VOW    时间: 2017-1-8 17:16
阿里天池,听过听过~~~~~~~~~~~~~~·
* W! s; x" w6 A. E




欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5