偏态分布及其数字特征（R语言可视化）

杨利霞 发表于 2021-6-24 16:20

偏态分布及其数字特征（R语言可视化）
目录
0引言
1、偏态分布的定义
1.1正态分布
1.2偏态分布
2、偏态分布的数字特征
2.1均值
2.2方差
3、不同偏态的偏态分布——R语言
3.1 代码
3.2不同lambda的偏态分布图
参考文献
0引言
偏态分布是A. Azzalini1在1985年提出的，本文主要介绍正态分布到偏正态分布的定义，主要展示偏正态分布常见数字特征均值方差的推导，以及使用R语言对不同偏态的概率密度函数进行展示。

1、偏态分布的定义
1.1正态分布
正态分布2，又名高斯分布，最早由棣莫弗在二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。
随机变量X XX服从N ( μ , σ 2 ) N(\mu, \sigma^2)N(μ,σ
2
)正态分布，我们分别记ϕ ( ∗ ) \phi(*)ϕ(∗)和Φ ( ∗ ) \Phi(*)Φ(∗)为标准正态分布的概率密度函数与累计分布函数。
定义为：
ϕ ( x ) = 1 2 π e − x 2 2 \phi(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}
ϕ(x)=
2π

1

e
−
2
x
2

Φ ( x ) = ∫ − ∞ x ϕ ( t ) d t \Phi(x) = \int_{-\infin}^{x}{\phi(t)dt}
Φ(x)=∫
−∞
x

ϕ(t)dt

随机变量X XX的概率密度函数和累计分布分别为为：
f X ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f_{X}(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}
f
X

(x)=
2π

σ
1

e
−
2σ
2

(x−μ)
2

F X ( x ) = ∫ − ∞ x f ( t ) d t F_{X}(x) = \int_{-\infin}^{x}{f(t)dt}
F
X

(x)=∫
−∞
x

f(t)dt

1.2偏态分布
A. Azzalini1在1985年首次提出标准偏态分布S N ( 0 , 1 , λ ) SN(0,1,\lambda)SN(0,1,λ),引入了偏度参数λ \lambdaλ,其概率密度函数是：
f ( x ) = 2 ϕ ( x ) Φ ( λ x ) , f(x) = 2\phi(x)\Phi(\lambda x),
f(x)=2ϕ(x)Φ(λx),

Y YY服从S N ( μ , σ , λ ) SN(\mu, \sigma,\lambda)SN(μ,σ,λ)的偏态分布，类似的概率密度函数有如下定义：
f Y ( y ) = 2 σ ϕ ( y − μ σ ) Φ ( λ y − μ σ ) . f_Y(y) = \frac{2}{\sigma}\phi(\frac{y-\mu}{\sigma})\Phi(\lambda \frac{y-\mu}{\sigma}).
f
Y

(y)=
σ
2

ϕ(
σ
y−μ

)Φ(λ
σ
y−μ

).

可以看出当λ \lambdaλ为0时，该分布退化为正态分布。下面我们来随机变量Y YY的均值和方差。

2、偏态分布的数字特征
2.1均值
在1.2节我们定义了一般的偏正态分布，这节我们推导偏正态分布的均值。
E ( Y ) = ∫ − ∞ + ∞ y f ( y ) d y = ∫ − ∞ + ∞ y 2 σ ϕ ( y − μ σ ) Φ ( λ y − μ σ ) d y ( 标准化换元（ t = y − μ σ ） ) = ∫ − ∞ + ∞ 2 ( σ t + μ ) ϕ ( t ) Φ ( λ t ) d t = μ + σ ∫ − ∞ + ∞ 2 t ϕ ( t ) Φ ( λ t ) d t = μ + σ ∫ − ∞ + ∞ 2 t ϕ ( t ) d t ∫ − ∞ λ t ϕ ( k ) d k ( 变换积分限 ) = μ + σ ∫ − ∞ + ∞ ϕ ( k ) d k ∫ k λ + ∞ 2 t ϕ ( t ) d t = μ + σ ∫ − ∞ + ∞ ϕ ( k ) d k ∫ k λ + ∞ 2 2 π d − e − t 2 2 = μ + 2 π σ ∫ − ∞ + ∞ e − k 2 2 λ 2 ϕ ( k ) d k = μ + 2 π λ 1 + λ 2 σ
E(Y)=∫+\infin−\infinyf(y)dy=∫+\infin−\infiny2σϕ(y−μσ)Φ(λy−μσ)dy(标准化换元（t=y−μσ）)=∫+\infin−\infin2(σt+μ)ϕ(t)Φ(λt)dt=μ+σ∫+\infin−\infin2tϕ(t)Φ(λt)dt=μ+σ∫+\infin−\infin2tϕ(t)dt∫λt−\infinϕ(k)dk(变换积分限)=μ+σ∫+\infin−\infinϕ(k)dk∫+\infinkλ2tϕ(t)dt=μ+σ∫+\infin−\infinϕ(k)dk∫+\infinkλ22π−−√d−e−t22=μ+2π−−√σ∫+\infin−\infine−k22λ2ϕ(k)dk=μ+2π−−√λ1+λ2−−−−−√σ
E(Y)=∫−\infin+\infinyf(y)dy=∫−\infin+\infiny2σϕ(y−μσ)Φ(λy−μσ)dy(标准化换元（t=y−μσ）)=∫−\infin+\infin2(σt+μ)ϕ(t)Φ(λt)dt=μ+σ∫−\infin+\infin2tϕ(t)Φ(λt)dt=μ+σ∫−\infin+\infin2tϕ(t)dt∫−\infinλtϕ(k)dk(变换积分限)=μ+σ∫−\infin+\infinϕ(k)dk∫kλ+\infin2tϕ(t)dt=μ+σ∫−\infin+\infinϕ(k)dk∫kλ+\infin22πd−e−t22=μ+2πσ∫−\infin+\infine−k22λ2ϕ(k)dk=μ+2πλ1+λ2σ
E(Y)


=∫
−∞
+∞

yf(y)dy
=∫
−∞
+∞

y
σ
2

ϕ(
σ
y−μ

)Φ(λ
σ
y−μ

)dy(标准化换元（t=
σ
y−μ

）)
=∫
−∞
+∞

2(σt+μ)ϕ(t)Φ(λt)dt
=μ+σ∫
−∞
+∞

2tϕ(t)Φ(λt)dt
=μ+σ∫
−∞
+∞

2tϕ(t)dt∫
−∞
λt

ϕ(k)dk(变换积分限)
=μ+σ∫
−∞
+∞

ϕ(k)dk∫
λ
k

+∞

2tϕ(t)dt
=μ+σ∫
−∞
+∞

ϕ(k)dk∫
λ
k

+∞


2π

2

d−e
−
2
t
2

=μ+
π
2

σ∫
−∞
+∞

e
−
2λ
2

k
2

ϕ(k)dk
=μ+
π
2


1+λ
2

λ

σ

令：
μ 0 ( λ ) = 2 π λ 1 + λ 2 \mu_0(\lambda) = \sqrt{\frac{2}{{\pi}}}\frac{\lambda}{\sqrt{1+\lambda^2}}
μ
0

(λ)=
π
2


1+λ
2

λ

有：
E ( Y ) = μ + μ 0 ( λ ) σ E(Y) = \mu+\mu_0(\lambda)\sigma
E(Y)=μ+μ
0

(λ)σ

2.2方差
按着正常步骤求方差先求二阶距离：
E ( Y 2 ) = ∫ − ∞ + ∞ y 2 f ( y ) d y = ∫ − ∞ + ∞ y 2 2 σ ϕ ( y − μ σ ) Φ ( λ y − μ σ ) d y ( 标准化换元（ t = y − μ σ ） ) = ∫ − ∞ + ∞ 2 ( σ t + μ ) 2 ϕ ( t ) Φ ( λ t ) d t = ∫ − ∞ + ∞ 2 ( μ 2 + σ 2 t 2 + 2 μ σ t ) ϕ ( t ) Φ ( λ t ) d t = μ 2 + 2 μ σ μ 0 + σ 2 ∫ − ∞ + ∞ 2 t 2 ϕ ( t ) Φ ( λ t ) d t = μ 2 + 2 μ σ μ 0 + σ 2
E(Y2)=∫+\infin−\infiny2f(y)dy=∫+\infin−\infiny22σϕ(y−μσ)Φ(λy−μσ)dy(标准化换元（t=y−μσ）)=∫+\infin−\infin2(σt+μ)2ϕ(t)Φ(λt)dt=∫+\infin−\infin2(μ2+σ2t2+2μσt)ϕ(t)Φ(λt)dt=μ2+2μσμ0+σ2∫+\infin−\infin2t2ϕ(t)Φ(λt)dt=μ2+2μσμ0+σ2
E(Y2)=∫−\infin+\infiny2f(y)dy=∫−\infin+\infiny22σϕ(y−μσ)Φ(λy−μσ)dy(标准化换元（t=y−μσ）)=∫−\infin+\infin2(σt+μ)2ϕ(t)Φ(λt)dt=∫−\infin+\infin2(μ2+σ2t2+2μσt)ϕ(t)Φ(λt)dt=μ2+2μσμ0+σ2∫−\infin+\infin2t2ϕ(t)Φ(λt)dt=μ2+2μσμ0+σ2
E(Y
2
)


=∫
−∞
+∞

y
2
f(y)dy
=∫
−∞
+∞

y
2

σ
2

ϕ(
σ
y−μ

)Φ(λ
σ
y−μ

)dy(标准化换元（t=
σ
y−μ

）)
=∫
−∞
+∞

2(σt+μ)
2
ϕ(t)Φ(λt)dt
=∫
−∞
+∞

2(μ
2
+σ
2
t
2
+2μσt)ϕ(t)Φ(λt)dt
=μ
2
+2μσμ
0

+σ
2
∫
−∞
+∞

2t
2
ϕ(t)Φ(λt)dt
=μ
2
+2μσμ
0

+σ
2

方差为：
D ( Y ) = E ( Y 2 ) − E ( Y ) 2 = μ 2 + 2 μ σ μ 0 + σ 2 − ( μ + μ 0 σ ) 2 = ( 1 − μ 0 2 ) σ 2
D(Y)=E(Y2)−E(Y)2=μ2+2μσμ0+σ2−(μ+μ0σ)2=(1−μ20)σ2
D(Y)=E(Y2)−E(Y)2=μ2+2μσμ0+σ2−(μ+μ0σ)2=(1−μ02)σ2
D(Y)


=E(Y
2
)−E(Y)
2

=μ
2
+2μσμ
0

+σ
2
−(μ+μ
0

σ)
2

=(1−μ
0
2

)σ
2

令：
σ 0 2 ( λ ) = 1 − μ 0 2 = 1 − 2 π λ 2 1 + λ 2 \sigma_0^2(\lambda) = 1 - \mu_0^2=1 - {\frac{2}{{\pi}}}\frac{\lambda^2}{{1+\lambda^2}}
σ
0
2

(λ)=1−μ
0
2

=1−
π
2


1+λ
2

λ
2

有：
D ( Y ) = σ 0 2 ( λ ) σ 2 D(Y) = \sigma_0^2(\lambda)\sigma^2
D(Y)=σ
0
2

(λ)σ
2

注：

在推导中会把μ 0 ( λ ) \mu_0(\lambda)μ
0

(λ)记为μ 0 . \mu_0.μ
0

.
在推导中用到K = ∫ − ∞ + ∞ 2 t 2 ϕ ( t ) Φ ( λ t ) d t K = \int_{-\infin}^{+\infin}2t^2\phi(t)\Phi(\lambda t)dtK=∫
−∞
+∞

2t
2
ϕ(t)Φ(λt)dt = 1，最后我们补齐证明。
K = ∫ − ∞ + ∞ 2 t 2 ϕ ( t ) Φ ( λ t ) d t （改变积分限 + 分部积分 ) = ∫ − ∞ + ∞ 2 ϕ ( t ) Φ ( λ t ) d t （概率密度函数具有规范性） = 1
K=∫+\infin−\infin2t2ϕ(t)Φ(λt)dt（改变积分限+分部积分)=∫+\infin−\infin2ϕ(t)Φ(λt)dt（概率密度函数具有规范性）=1
K=∫−\infin+\infin2t2ϕ(t)Φ(λt)dt（改变积分限+分部积分)=∫−\infin+\infin2ϕ(t)Φ(λt)dt（概率密度函数具有规范性）=1
K


=∫
−∞
+∞

2t
2
ϕ(t)Φ(λt)dt（改变积分限+分部积分)
=∫
−∞
+∞

2ϕ(t)Φ(λt)dt（概率密度函数具有规范性）
=1

3、不同偏态的偏态分布——R语言
本文代码主要用了闭包以及ggplot2包。下面贴出代码和图片就不具体注释代码思路了。

3.1 代码
library(ggplot2)
nnorm <- function(mu = 0, sigma = 1, lambda = 0){
  function(x){
x <- (x - mu)/sigma
f <- 1/(sqrt(2*pi))*exp(-x^2/2)*pnorm(x*lambda)
return(f)
  }
}
plot(nnorm(), -5, 5,ylim = c(0,0.37))
plot(nnorm(lambda = -5), -5, 5, add = T)
plot(nnorm(lambda = -3), -5, 5, add = T)
plot(nnorm(lambda = -1), -5, 5, add = T)
plot(nnorm(lambda = 5), -5, 5, add = T)
plot(nnorm(lambda = 1), -5, 5, add = T)
plot(nnorm(lambda = 3), -5, 5, add = T)

x <- seq(-5,5, 0.01)
n = length(x)
Lambda <- c(-3:3)
Data <- data.frame(
  x = rep(x, 7),
  y = c(nnorm(lambda = -3)(x),nnorm(lambda = -2)(x),nnorm(lambda = -1)(x),nnorm(lambda = -0)(x),
  nnorm(lambda = 1)(x), nnorm(lambda = 2)(x), nnorm(lambda = 3)(x)),
  z = rep(Lambda, each = n),
  z1 = as.factor(rep(Lambda, each = n))
)
qplot(data = Data, x = x, y = y, col = z, geom = "line")
qplot(data = Data, x = x, y = y, col = z1, geom = "line")
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
3.2不同lambda的偏态分布图

参考文献
A. Azzalini A Class of Distributions Which Includes the Normal Ones 1985, https://www.jstor.org/stable/4615982 ↩︎ ↩︎

https://baike.baidu.com/item/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83 ↩︎
————————————————
版权声明：本文为CSDN博主「统计学小王子」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_46111814/article/details/115607036

页: [1]

数学建模社区-数学中国's Archiver

偏态分布及其数字特征（R语言可视化）