QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2363|回复: 0
打印 上一主题 下一主题

逻辑回归模型应用

[复制链接]
字体大小: 正常 放大
普大帝        

1195

主题

33

听众

5万

积分

  • TA的每日心情
    开心
    2025-7-18 09:36
  • 签到天数: 616 天

    [LV.9]以坛为家II

    网络挑战赛参赛者

    自我介绍
    我是普大帝,拼搏奋进,一往无前。
    跳转到指定楼层
    1#
    发表于 2022-7-6 10:17 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    原发表于数学中国微信公众号,关注数学中国微信公众号可查看更多。请用电脑查看,手机版图片可能无法正常显示。
    , i. L( C; c3 g; o" q% R
    实际问题中,我们经常需要探讨变量之间的关系.当两个变量之间或者多个变量之间具有较高的相关关系,而又需要我们通过某个变量X(或某些变量X1,…,Xn)的变化来解释另一个变量Y的变化情况,则我们称X(或X1,…,Xn)为解释变量,Y为响应变量.大部分情况下,都会先尝试采用线性回归的方法探讨解释变量对响应变量的影响.
    比如,当我们试图寻找营业收入与销售量、销售单价的关系时,可以建立以销售量、销售单价为解释变量,营业收入为响应变量的回归方程,通过销售量和销售单价的变化来预测营业收入的变化,从而帮助优化销售策略,提高营业收入.线性回归在我们生活中的诸多领域都有着极其广泛的应用.不过,当响应变量不是定量变量,而是定性变量时,传统的线性回归方法就失效了.
    当响应变量为定性变量时,相应回归方法的改进就称为逻辑回归模型.
    在实际生活中,我们常常遇到这样的问题:用户在某视频门户网站的会员权限马上到期了,是否续约会员?在校医院治好感冒后,感冒还会不会复发?虽然这些选择或问题对我们来说只是点头或是摇头的区别,但对于视频网站来说,较高的会员续约率会增加网站的热度和收入;医院则需要降低复发率来提升医疗水平.
    处理这类实际问题,我们经常会碰到非此即彼甚至多个选择中择一的情况.通过模型对两种或多种选择及其可能影响因素的训练,可以得到其各自发生概率的大小,从而帮助我们了解何种情况最可能发生.逻辑回归模型就是处理当响应变量为二分类变量(一般只取0或1两个值,多分类变量可类似处理)时,利用解释变量对其进行回归分析的问题.虽然逻辑回归不能准确地预测分类变量的取值,但可以预测变量取值的概率.如果是二分类问题的话,回归结果给出的是Y取1或0的概率大小.逻辑回归是一种广义的线性回归.
    下面来看几个逻辑回归模型适用的问题.
    1 优惠券的精准投放问题
    问题描述 一家连锁超市推出优惠券活动,如果顾客购买200元以上的商品,将给予50元的优惠.为了精准投放,超市只愿意将优惠券赠送给最有可能使用优惠券的顾客.
    思路分析 研究人员认为,顾客是否使用优惠券会与顾客在这家连锁超市的年消费支出和顾客是否拥有会员卡有关.顾客的年消费支出可以从积分卡上获得;如果顾客拥有会员卡则记为1,否则记为0.
    模型建立 现在超市把优惠券赠送给随机抽取的100名有积分的顾客,在调查结束时,研究人员记录下顾客是否使用了优惠券(使用了优惠券记为1,否则记为0).在其中抽取10个数据,如表2.7所示,建立逻辑回归模型分析年消费支出和是否拥有会员卡对使用优惠券的影响.
    表2.7 调查研究中的10个数据
    模型求解 在上述问题中,变量定义如下所示.
    于是选择二元逻辑回归方程
    这里E(Y)=p.利用R语言计算逻辑回归模型参数,得到的结果如下所示.
    Call:
    glm(formula=coupon~spending+card,family=binomial),
    Deviance Residuals:
      Min    1Q  Median   3Q   Max
    -1.6839 -1.0140 -0.6503 1.1216 1.8794
    Coefficients:
        Estimate Std.Error z value Pr(>|z|)
    (Intercept)  -2.1464  0.5772 -3.718 0.000201 ***
    spending    0.3416  0.1287  2.655 0.007928 **
    card     1.0987  0.4447  2.471 0.013483 *
    ---
    Signif.codes:0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 '' 1
    (Dispersion parameter for binomial family taken to be 1)
      Null deviance:134.60 on 99 degrees of freedom
    Residual deviance:120.97 on 97 degrees of freedom
    AIC:126.97
    Number of Fisher Scoring iterations:4
    可以得到,截距项(Intercept)的估计值为-2.146 4,年消费支出(Spending)的估计值为0.341 6,会员卡(Card)的估计值为1.098 7.于是逻辑回归的方程为
    可以利用上式估计特定类型的顾客使用优惠券的概率.例如,估计年消费支出为1 000元并且没有会员卡的顾客使用优惠券的概率,为此我们将x1=1,x2=0代入逻辑回归方程,得到
    对于这一类顾客群体,他们使用优惠券的概率约为0.14.同样地,可以估计年消费支出为1 000元和拥有会员卡的顾客使用优惠券的概率,为此我们将x1=1,x2=1代入逻辑回归方程,得到
    对于这一类顾客群体,他们使用优惠券的概率约为0.33.上述结果显示:年消费支出为1 000元的顾客,拥有会员卡会比没有会员卡的顾客使用优惠券的概率多1倍以上.
    可利用z检验来确定每一个自变量对模型总体是否有显著的作用.对于变量xi(i=1,2),有假设H0:βi=0,H1:βi≠0.
    如果原假设成立,则估计的系数除以标准差si后得到的结果[插图]为一个服从标准正态分布的统计量.在结果图中,Std.Error为标准误,zvalue为z统计量的值,Pr(>|z|)为z统计量对应的概率 p值.对于上述例子中的自变量 x1,z值对应的 p值为0.007 9;自变量x2,z值对应的p值为0.013 5.在α=0.05的显著水平下,可以认为两个变量对模型总体都有显著作用.
    这里补充一个概念——受试者工作特征曲线(Receiver Operating Characteristic Curve),简称ROC曲线,是以特异性为横坐标,敏感性为纵坐标绘制而成.曲线下方面积越大,或者说曲线越靠近左上方,则逻辑回归预测的准确性越高.
    年消费支出与是否使用优惠券的ROC曲线如图2.12所示.
    是否拥有会员卡与是否使用优惠券的ROC曲线如图2.13所示.
    图2.12年消费支出与是否使用优惠券的ROC曲线
    图2.13 是否拥有会员卡与是否使用优惠券的ROC曲线
    由逻辑回归模型,可以根据年消费支出和是否拥有会员卡对使用优惠券的概率做出预测,结果如表2.8所示.
    表2.8 使用优惠券的概率预测
    根据这些信息,连锁超市认为将优惠券赠送给使用优惠券概率大于0.4的顾客能达到很好的活动效果.因此,超市制订的活动策略如下.
    拥有会员卡的顾客:对年消费支出在2 000元以上的顾客赠送优惠券.
    没有会员卡的顾客:对年消费支出在5 000元以上(0.392 1非常接近0.4,超市认为也可以将这一类顾客包括进来)的顾客赠送优惠券.
    2.4.2 投保客户加保可能性问题
    逻辑回归模型在社会生活各领域都有极其广泛的应用,是当前使用广泛的热门统计方法之一.不过在实际应用中,会根据问题的不同,对结果进行更进一步的处理.
    问题描述 在保险业务中,常常需要计算投保客户的加保可能性大小,并对加保可能性大小不同的客户进行分类和区别处理,如何计算加保可能性?
    思路分析 在保险业务的客人加保分析中,常常通过证据权重(Weight of Evidence,WOE)法,将逻辑回归模型所得的结果转换为标准评分卡的形式,方便保险公司对于加保可能性大小不同的客户进行分类和区别处理.
    模型建立 表2.9所示是共分为r类的名义变量x和被分为正常和违约两类的违约变量的双向频数表.
    表2.9 违约变量的双向频数表
    使用这些符号,xi类的WOE值可以表示为
    根据WOE转换,可以将名义变量x的WOE重新表述为
    WOE(x)=δ1WOE1+δ2WOE2+…+δrWOEr,
    其中,δ1,…,δr是二元虚拟变量,即对于所有的i=1,…,r,如果x的取值是第i类(xi),则δi=1;否则,δi=0.
    设有p个名义独立变量x1,x2,…,xp的逻辑回归模型,第i个名义变量xi有ki个分类(i=1,2,…,p).模型公式可以用违约比与正常比的比率的形式表示如下
    对于这p个变量x1,x2,…,xp进行WOE转换,用w代表证据权重,可以得到新的转换值如下
    vi=WOE(xi)=δi1wi1+…+δik1wik1,i=1,2,…,p.
    用转换后的数值型变量v1,v2,…,vp代替变量x1,x2,…,xp,对模型进行拟合,就可以进行参数估计并得到以下模型
    将v1,v2,…,vp的值代入,得到一个新的模型如下
    评分卡设定的分值刻度可以通过将分值表示为优势对数的线性表达式来定义,如下所示
    Score=A+Bln(odds).
    其中,A和B是常数.常数A和B的值可以通过将两个已知或假设的分值代入公式计算得到.通常,需要两个假设.
    • 在某个特定的优势设定特定的预期分值P0.
    • odds翻倍所需增加的分值(PDO).
    首先,设定优势(odds)为θ0的特定点的分值为P0,优势为2θ0的点的分值为 P0+PDO.代入公式求解可得
    将新模型代入分值刻度,得到
    Score=A+B{β0+(β1w11)δ11+(β1w12)δ12+…+(βpwp1)δp1+(βpwp2)δp2+…}.
    其中,wij是第j行第i个变量的证据权重;δij是二元变量,表示变量i是否取第j个值.公式可以重新写为
    Score=(A+Bβ0)+(Bβ1w11)δ11+(Bβ1w12)δ12+…+(Bβpwp1)
    δp1+(Bβpwp2)δp2+….
    写成评分卡形式如表2.10所示.
    表2.10 公式评分卡形式
    续表
    得到的计算结果一般都是非整数的分值.通常,该分值将四舍五入到最近的整数,以简化评分卡的表现形式和可解释性.这样四舍五入得到分值的近似值的方法,因其影响通常都很小,造成的误差可以忽略.需要注意的是,四舍五入是在每个变量进行的分值分配时做的,而不是在加总后得到总分后才进行.
    模型求解 记加保的客户为1,不加保的客户为0.将所有保险数据分为孤儿单(保险代理人中途离职)和非孤儿单,分别建立加保指数模型.由于孤儿单模型和非孤儿单模型内容一致,所以只介绍非孤儿单模型是如何建立的,孤儿单同理.
    首先剔除非有效数据(比如自保件和拆单件),按原加保率随机抽取10%的样本,将抽取的样本按照7 ∶ 3分为训练集和测试集.训练集用来建立模型,测试集用来检验模型有效性.
    采用逻辑回归将客户的各个变量与是否加保进行分析,得到强影响的变量有年龄、性别、是否具有车险、客户是否结过婚、最近一次购买保单距今时长、有效险种对应的年缴保费、有效保单总数和持有险种类型这8个变量.逻辑回归模型参数表如表2.11所示.
    表2.11 逻辑回归模型参数表
    可以看到,变量对应的p值都小于0.000 1,说明这些变量与是否加保都有明显相关关系.
    按照建模中计算各个变量分类对应的WOE值(WOE=ln((bad/bad总数)/(good/good总数))=ln((加保/加保总人数)/(不加保/不加保总人数)),计算结果如表2.12所示.
    表2.12 各变量分类对应的WOE值
    设优势odds=10时预期分值为134,当优势翻倍为20时,对应的分值为134+10.根据建模中的公式,计算得到A为100.78,B为14.43.根据公式Score=A+Bln(odds)将变量分类的WOE 值转换成分数,为了控制上下限,分数向0取整,得到的结果如表2.13所示.
    表2.13 变量分类的分数表
    根据评分和客户信息,可以为购买保险的客户打分,并且预测相应的加保率.将训练集建立的模型运用到测试集,所得到的结果如表2.14所示.
    表2.14 评分结果
    可以看到,预测加保率非常接近实际加保率,大部分差距都在2%以内,说明模型的结果非常好.根据该模型,还可以对2015年的数据进行预测.

    ) o+ M' s$ F: G7 e/ S: n  }
    夏令营.jpg

    0 @' `7 c. s0 \9 v' D6 Y9 j7 V! b  u: C

    ! C, {+ s. K1 P) _! j! b/ ^. e1 T, ?% w, Q9 n
      B3 Y" G/ X" t  w* e$ O: ^% y1 F
    2 M' w: U: R- m
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-7-24 03:02 , Processed in 0.323569 second(s), 53 queries .

    回顶部