- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 563398 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174242
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
Logistic回归原理浅谈原文参考http://blog.csdn.net/ariessurfer/article/details/41310525
6 ~' T! ?0 N: {3 y. qLogistic回归为概率型非线性回归模型,是研究二分类观察结果与一些影响因素之间关系的一种多变量分析方法。通常的问题是,研究某些因素条件下某个结果是否发生,比如医学中根据病人的一些症状来判断它是否患有某种病。
* P5 E& D. A0 }! ~在讲解Logistic回归理论之前,我们先从LR分类器说起。LR分类器,即Logistic Regression Classifier。在分类情形下,经过学习后的LR分类器是一组权值,当测试样本的数据输入时,这组权值与测试数据按照线性加和得到 * m4 u% v7 ^/ t; o) v# m
1 _5 m2 f0 X$ K
这里是每个样本的n个特征。
0 B/ v) ^8 `- V5 j6 Y# ~6 t8 z5 y; {; k" b M7 \6 ~& F% b8 q
4 Y7 F a d+ G4 c5 A这里是每个样本的n个特征。 1 f1 z3 O) a5 A3 ?
解出x之后,按照sigmoid函数的形式求出
6 t: I4 K1 e v' [$ s, S$ Tsigmoid函数的图像如图所示 i5 Y3 Q8 S2 c7 _, J2 {7 M) A5 Q
sigmoid函数的定义域为,值域为(0,1)。当x取值为(-INF,0),y的概率小于0.5,y取0的概率比较大;当x取值为(0,INF),y的概率大于0.5,y取1的概率比较大。因此最基本的LR分类器适合对两类目标进行分类。
7 q | X$ X$ `1 J) u; k2 w. csigmoid函数解释:假设在n个独立自变量作用下,记y取1的概率是p=P(y=1 | x),取0的概率是1-p,取1和取0的概率之比为,称为事件的优势比(odds),对odds取自然对数即得,则 : R2 K' [1 U- j, n' U+ V
所以Logistic回归最关键的问题就是研究如何求得这组权值。这个问题是用极大似然估计来做的。
5 B2 y9 y5 [# C6 s+ ^
. }$ i7 J: { v6 E( A3 t! U下面正式地来讲Logistic回归模型。 / Q4 A2 l4 x9 [; j" M1 H
Logistic回归模型是建立与自然变量的线性回归模型。
% d! L, e9 I1 A. K3 |2 U考虑具有n个独立变量的向量,记y取1的概率是p=P(y=1 | x),取0的概率是1-p,取1和取0的概率之比为,称为事件的优势比(odds),对odds取自然对数即得,则,2 W M! [" _6 E, o2 ?, H
3 v0 t8 L) L' k& a1 K, x1 d假设有m个观测样本,观测值分别为,设取1的概率是,取0的概率是,所以得到一个观测值的概率服从二点分布,,因为各个观测样本之间相互独立,那么它们的联合分布为各边缘分布的乘积。得到似然函数为,然后我们的目标是求出使这一似然函数的值最大的参数估计,最大似然估计就是求出参数,使得L(w)取得最大值,对函数L(w)取对数,然后对n+1个分别求偏导,得到n+1个方程,解这个n+1个方程组得到。 5 _# ~5 d3 ?# S9 \
上述方程比较复杂,一般方法似乎不能解之,所以我们引用了牛顿-拉菲森迭代方法求解。
$ j: l0 a7 _+ u7 D- _
* O- E: Z4 @! i7 U H
; S' W+ N' E+ z c. J9 {" }3 ]; l# q/ E; i1 f; M0 E. Z5 u
|
zan
|