2744557306 发表于 2023-11-30 17:34

Logistic回归实例2

# logistic回归
实际上线性最小二乘回归和Logistic回归都是广义线性模型的一个特例。当随机变量Y服从高斯分布,那么得到的是线性最小二乘回归,当随机变量服从伯努利分布,则得到的是Logistic回归。

R软件提供了拟合计算广义线性模型的函数glm(),其命令格式如下:fitted.model <- glm(formula, family=family.generator, data=data.frame) 其中,formula是拟合公式;family是分布族,即前面讲到的广义线性模型的种类,如正态分布、Poisson分布、二项分布等。


有了上面这些分布族和连接函数,我们就可以完成相应的广义线性模型的拟合问题。

1)正态分布 正态分布族的使用方法: fm <- glm(formula, family=gaussian(link=identity), data=data.frame) 其中,link=identity可以不写,因为正态分布的连接函数缺省值是恒等(identity)。事实上,整个参数family=gaussian也可以不写,因为分布族的缺省值就是正态分布。 注意:正态分布的广义线性模型实际上与线性模型是相同的,也就是 fm <- glm(formula, family=gaussian, data=data.frame) 与线性模型 fm <- lm(formula, data=data.frame)有完全相同的结果,但效率却低得多。

2)二项分布


logistic回归模型是一个非线性回归模型,自变量可以是连续变量,也可以是分类变量,或哑变量。但可以使用线性回归模型对参数进行估计,所以Logistic回归模型属于广义线性模型。

Logistic回归模型的公式为: fm <- glm(formula, family=binomial(link=logit), data=data.frame) 其中,link=logit可以不写,因为logit是二项分布族连接函数的缺省状态。
实例一、Norell实验,高压电线对牲畜的影响#1、加载数据
norell<-data.frame( x=0:5, n=rep(70,6), success=c(0,9,21,47,60,63) )
norell$Ymat<-cbind(norell$success, norell$n-norell$success)  

#2、建模
glm.sol <- glm(Ymat ~ x, family=binomial, data=norell)

#3、模型评估
summary(glm.sol)##
## Call:
## glm(formula = Ymat ~ x, family = binomial, data = norell)
##
## Deviance Residuals:
##       1        2        3        4        5        6  
## -2.2507   0.3892  -0.1466   1.1080   0.3234  -1.6679  
##
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)   
## (Intercept)  -3.3010     0.3238  -10.20   <2e-16 ***
## x             1.2459     0.1119   11.13   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
##     Null deviance: 250.4866  on 5  degrees of freedom
## Residual deviance:   9.3526  on 4  degrees of freedom
## AIC: 34.093
##
## Number of Fisher Scoring iterations: 4#与线性回归模型相同,在得到回归模型后,可以作预测:电流强度为3.5毫安时,有响应的牛的概率

#4、预测
pre <- predict(glm.sol, data.frame(x=3.5))
(p <- exp(pre)/(1+exp(pre)))##        1
## 0.742642#求有50%的牛响应时的电流强度:当P=0.5时,ln(P/(1-P))=0,所以X=-b0/b1
glm.sol$coefficients## (Intercept)           x
##   -3.301035    1.245937(X <- -glm.sol$coefficients[]/glm.sol$coefficients[])## 2.649439#5、画出响应比例与logistic回归曲线:
d <- seq(0, 5, length=100)
pre <- predict(glm.sol, data.frame(x=d))
p <- exp(pre)/(1+exp(pre))
norell$y <- norell$success/norell$n
plot(norell$x, norell$y)
lines(d, p)#其中,d是给出曲线横坐标的点,pre是计算预测值,p是相应的预测概率。用plot函数和lines给出散点图和对应的预测曲线。
页: [1]
查看完整版本: Logistic回归实例2