偏态分布及其数字特征(R语言可视化)
偏态分布及其数字特征(R语言可视化)
目录
0引言
1、偏态分布的定义
1.1正态分布
1.2偏态分布
2、偏态分布的数字特征
2.1均值
2.2方差
3、不同偏态的偏态分布——R语言
3.1 代码
3.2不同lambda的偏态分布图
参考文献
0引言
偏态分布是A. Azzalini1在1985年提出的,本文主要介绍正态分布到偏正态分布的定义,主要展示偏正态分布常见数字特征均值方差的推导,以及使用R语言对不同偏态的概率密度函数进行展示。
1、偏态分布的定义
1.1正态分布
正态分布2,又名高斯分布,最早由棣莫弗在二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
随机变量X XX服从N ( μ , σ 2 ) N(\mu, \sigma^2)N(μ,σ
2
)正态分布,我们分别记ϕ ( ∗ ) \phi(*)ϕ(∗)和Φ ( ∗ ) \Phi(*)Φ(∗)为标准正态分布的概率密度函数与累计分布函数。
定义为:
ϕ ( x ) = 1 2 π e − x 2 2 \phi(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}
ϕ(x)=
2π
1
e
−
2
x
2
Φ ( x ) = ∫ − ∞ x ϕ ( t ) d t \Phi(x) = \int_{-\infin}^{x}{\phi(t)dt}
Φ(x)=∫
−∞
x
ϕ(t)dt
随机变量X XX的概率密度函数和累计分布分别为为:
f X ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f_{X}(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}
f
X
(x)=
2π
σ
1
e
−
2σ
2
(x−μ)
2
F X ( x ) = ∫ − ∞ x f ( t ) d t F_{X}(x) = \int_{-\infin}^{x}{f(t)dt}
F
X
(x)=∫
−∞
x
f(t)dt
1.2偏态分布
A. Azzalini1在1985年首次提出标准偏态分布S N ( 0 , 1 , λ ) SN(0,1,\lambda)SN(0,1,λ),引入了偏度参数λ \lambdaλ,其概率密度函数是:
f ( x ) = 2 ϕ ( x ) Φ ( λ x ) , f(x) = 2\phi(x)\Phi(\lambda x),
f(x)=2ϕ(x)Φ(λx),
Y YY服从S N ( μ , σ , λ ) SN(\mu, \sigma,\lambda)SN(μ,σ,λ)的偏态分布,类似的概率密度函数有如下定义:
f Y ( y ) = 2 σ ϕ ( y − μ σ ) Φ ( λ y − μ σ ) . f_Y(y) = \frac{2}{\sigma}\phi(\frac{y-\mu}{\sigma})\Phi(\lambda \frac{y-\mu}{\sigma}).
f
Y
(y)=
σ
2
ϕ(
σ
y−μ
)Φ(λ
σ
y−μ
).
可以看出当λ \lambdaλ为0时,该分布退化为正态分布。下面我们来随机变量Y YY的均值和方差。
2、偏态分布的数字特征
2.1均值
在1.2节我们定义了一般的偏正态分布,这节我们推导偏正态分布的均值。
E ( Y ) = ∫ − ∞ + ∞ y f ( y ) d y = ∫ − ∞ + ∞ y 2 σ ϕ ( y − μ σ ) Φ ( λ y − μ σ ) d y ( 标 准 化 换 元 ( t = y − μ σ ) ) = ∫ − ∞ + ∞ 2 ( σ t + μ ) ϕ ( t ) Φ ( λ t ) d t = μ + σ ∫ − ∞ + ∞ 2 t ϕ ( t ) Φ ( λ t ) d t = μ + σ ∫ − ∞ + ∞ 2 t ϕ ( t ) d t ∫ − ∞ λ t ϕ ( k ) d k ( 变 换 积 分 限 ) = μ + σ ∫ − ∞ + ∞ ϕ ( k ) d k ∫ k λ + ∞ 2 t ϕ ( t ) d t = μ + σ ∫ − ∞ + ∞ ϕ ( k ) d k ∫ k λ + ∞ 2 2 π d − e − t 2 2 = μ + 2 π σ ∫ − ∞ + ∞ e − k 2 2 λ 2 ϕ ( k ) d k = μ + 2 π λ 1 + λ 2 σ
E(Y)=∫+\infin−\infinyf(y)dy=∫+\infin−\infiny2σϕ(y−μσ)Φ(λy−μσ)dy(标准化换元(t=y−μσ))=∫+\infin−\infin2(σt+μ)ϕ(t)Φ(λt)dt=μ+σ∫+\infin−\infin2tϕ(t)Φ(λt)dt=μ+σ∫+\infin−\infin2tϕ(t)dt∫λt−\infinϕ(k)dk(变换积分限)=μ+σ∫+\infin−\infinϕ(k)dk∫+\infinkλ2tϕ(t)dt=μ+σ∫+\infin−\infinϕ(k)dk∫+\infinkλ22π−−√d−e−t22=μ+2π−−√σ∫+\infin−\infine−k22λ2ϕ(k)dk=μ+2π−−√λ1+λ2−−−−−√σ
E(Y)=∫−\infin+\infinyf(y)dy=∫−\infin+\infiny2σϕ(y−μσ)Φ(λy−μσ)dy(标准化换元(t=y−μσ))=∫−\infin+\infin2(σt+μ)ϕ(t)Φ(λt)dt=μ+σ∫−\infin+\infin2tϕ(t)Φ(λt)dt=μ+σ∫−\infin+\infin2tϕ(t)dt∫−\infinλtϕ(k)dk(变换积分限)=μ+σ∫−\infin+\infinϕ(k)dk∫kλ+\infin2tϕ(t)dt=μ+σ∫−\infin+\infinϕ(k)dk∫kλ+\infin22πd−e−t22=μ+2πσ∫−\infin+\infine−k22λ2ϕ(k)dk=μ+2πλ1+λ2σ
E(Y)
=∫
−∞
+∞
yf(y)dy
=∫
−∞
+∞
y
σ
2
ϕ(
σ
y−μ
)Φ(λ
σ
y−μ
)dy(标准化换元(t=
σ
y−μ
))
=∫
−∞
+∞
2(σt+μ)ϕ(t)Φ(λt)dt
=μ+σ∫
−∞
+∞
2tϕ(t)Φ(λt)dt
=μ+σ∫
−∞
+∞
2tϕ(t)dt∫
−∞
λt
ϕ(k)dk(变换积分限)
=μ+σ∫
−∞
+∞
ϕ(k)dk∫
λ
k
+∞
2tϕ(t)dt
=μ+σ∫
−∞
+∞
ϕ(k)dk∫
λ
k
+∞
2π
2
d−e
−
2
t
2
=μ+
π
2
σ∫
−∞
+∞
e
−
2λ
2
k
2
ϕ(k)dk
=μ+
π
2
1+λ
2
λ
σ
令:
μ 0 ( λ ) = 2 π λ 1 + λ 2 \mu_0(\lambda) = \sqrt{\frac{2}{{\pi}}}\frac{\lambda}{\sqrt{1+\lambda^2}}
μ
0
(λ)=
π
2
1+λ
2
λ
有:
E ( Y ) = μ + μ 0 ( λ ) σ E(Y) = \mu+\mu_0(\lambda)\sigma
E(Y)=μ+μ
0
(λ)σ
2.2方差
按着正常步骤求方差先求二阶距离:
E ( Y 2 ) = ∫ − ∞ + ∞ y 2 f ( y ) d y = ∫ − ∞ + ∞ y 2 2 σ ϕ ( y − μ σ ) Φ ( λ y − μ σ ) d y ( 标 准 化 换 元 ( t = y − μ σ ) ) = ∫ − ∞ + ∞ 2 ( σ t + μ ) 2 ϕ ( t ) Φ ( λ t ) d t = ∫ − ∞ + ∞ 2 ( μ 2 + σ 2 t 2 + 2 μ σ t ) ϕ ( t ) Φ ( λ t ) d t = μ 2 + 2 μ σ μ 0 + σ 2 ∫ − ∞ + ∞ 2 t 2 ϕ ( t ) Φ ( λ t ) d t = μ 2 + 2 μ σ μ 0 + σ 2
E(Y2)=∫+\infin−\infiny2f(y)dy=∫+\infin−\infiny22σϕ(y−μσ)Φ(λy−μσ)dy(标准化换元(t=y−μσ))=∫+\infin−\infin2(σt+μ)2ϕ(t)Φ(λt)dt=∫+\infin−\infin2(μ2+σ2t2+2μσt)ϕ(t)Φ(λt)dt=μ2+2μσμ0+σ2∫+\infin−\infin2t2ϕ(t)Φ(λt)dt=μ2+2μσμ0+σ2
E(Y2)=∫−\infin+\infiny2f(y)dy=∫−\infin+\infiny22σϕ(y−μσ)Φ(λy−μσ)dy(标准化换元(t=y−μσ))=∫−\infin+\infin2(σt+μ)2ϕ(t)Φ(λt)dt=∫−\infin+\infin2(μ2+σ2t2+2μσt)ϕ(t)Φ(λt)dt=μ2+2μσμ0+σ2∫−\infin+\infin2t2ϕ(t)Φ(λt)dt=μ2+2μσμ0+σ2
E(Y
2
)
=∫
−∞
+∞
y
2
f(y)dy
=∫
−∞
+∞
y
2
σ
2
ϕ(
σ
y−μ
)Φ(λ
σ
y−μ
)dy(标准化换元(t=
σ
y−μ
))
=∫
−∞
+∞
2(σt+μ)
2
ϕ(t)Φ(λt)dt
=∫
−∞
+∞
2(μ
2
+σ
2
t
2
+2μσt)ϕ(t)Φ(λt)dt
=μ
2
+2μσμ
0
+σ
2
∫
−∞
+∞
2t
2
ϕ(t)Φ(λt)dt
=μ
2
+2μσμ
0
+σ
2
方差为:
D ( Y ) = E ( Y 2 ) − E ( Y ) 2 = μ 2 + 2 μ σ μ 0 + σ 2 − ( μ + μ 0 σ ) 2 = ( 1 − μ 0 2 ) σ 2
D(Y)=E(Y2)−E(Y)2=μ2+2μσμ0+σ2−(μ+μ0σ)2=(1−μ20)σ2
D(Y)=E(Y2)−E(Y)2=μ2+2μσμ0+σ2−(μ+μ0σ)2=(1−μ02)σ2
D(Y)
=E(Y
2
)−E(Y)
2
=μ
2
+2μσμ
0
+σ
2
−(μ+μ
0
σ)
2
=(1−μ
0
2
)σ
2
令:
σ 0 2 ( λ ) = 1 − μ 0 2 = 1 − 2 π λ 2 1 + λ 2 \sigma_0^2(\lambda) = 1 - \mu_0^2=1 - {\frac{2}{{\pi}}}\frac{\lambda^2}{{1+\lambda^2}}
σ
0
2
(λ)=1−μ
0
2
=1−
π
2
1+λ
2
λ
2
有:
D ( Y ) = σ 0 2 ( λ ) σ 2 D(Y) = \sigma_0^2(\lambda)\sigma^2
D(Y)=σ
0
2
(λ)σ
2
注:
在推导中会把μ 0 ( λ ) \mu_0(\lambda)μ
0
(λ)记为μ 0 . \mu_0.μ
0
.
在推导中用到K = ∫ − ∞ + ∞ 2 t 2 ϕ ( t ) Φ ( λ t ) d t K = \int_{-\infin}^{+\infin}2t^2\phi(t)\Phi(\lambda t)dtK=∫
−∞
+∞
2t
2
ϕ(t)Φ(λt)dt = 1,最后我们补齐证明。
K = ∫ − ∞ + ∞ 2 t 2 ϕ ( t ) Φ ( λ t ) d t ( 改 变 积 分 限 + 分 部 积 分 ) = ∫ − ∞ + ∞ 2 ϕ ( t ) Φ ( λ t ) d t ( 概 率 密 度 函 数 具 有 规 范 性 ) = 1
K=∫+\infin−\infin2t2ϕ(t)Φ(λt)dt(改变积分限+分部积分)=∫+\infin−\infin2ϕ(t)Φ(λt)dt(概率密度函数具有规范性)=1
K=∫−\infin+\infin2t2ϕ(t)Φ(λt)dt(改变积分限+分部积分)=∫−\infin+\infin2ϕ(t)Φ(λt)dt(概率密度函数具有规范性)=1
K
=∫
−∞
+∞
2t
2
ϕ(t)Φ(λt)dt(改变积分限+分部积分)
=∫
−∞
+∞
2ϕ(t)Φ(λt)dt(概率密度函数具有规范性)
=1
3、不同偏态的偏态分布——R语言
本文代码主要用了闭包以及ggplot2包。下面贴出代码和图片就不具体注释代码思路了。
3.1 代码
library(ggplot2)
nnorm <- function(mu = 0, sigma = 1, lambda = 0){
function(x){
x <- (x - mu)/sigma
f <- 1/(sqrt(2*pi))*exp(-x^2/2)*pnorm(x*lambda)
return(f)
}
}
plot(nnorm(), -5, 5,ylim = c(0,0.37))
plot(nnorm(lambda = -5), -5, 5, add = T)
plot(nnorm(lambda = -3), -5, 5, add = T)
plot(nnorm(lambda = -1), -5, 5, add = T)
plot(nnorm(lambda = 5), -5, 5, add = T)
plot(nnorm(lambda = 1), -5, 5, add = T)
plot(nnorm(lambda = 3), -5, 5, add = T)
x <- seq(-5,5, 0.01)
n = length(x)
Lambda <- c(-3:3)
Data <- data.frame(
x = rep(x, 7),
y = c(nnorm(lambda = -3)(x),nnorm(lambda = -2)(x),nnorm(lambda = -1)(x),nnorm(lambda = -0)(x),
nnorm(lambda = 1)(x), nnorm(lambda = 2)(x), nnorm(lambda = 3)(x)),
z = rep(Lambda, each = n),
z1 = as.factor(rep(Lambda, each = n))
)
qplot(data = Data, x = x, y = y, col = z, geom = "line")
qplot(data = Data, x = x, y = y, col = z1, geom = "line")
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
3.2不同lambda的偏态分布图
参考文献
A. Azzalini A Class of Distributions Which Includes the Normal Ones 1985, https://www.jstor.org/stable/4615982 ↩︎ ↩︎
https://baike.baidu.com/item/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83 ↩︎
————————————————
版权声明:本文为CSDN博主「统计学小王子」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_46111814/article/details/115607036
页:
[1]