数学建模社区-数学中国

标题: 用一个”栗子“讲清楚泊松分布 [打印本页]

作者: 浅夏110    时间: 2020-5-15 10:51
标题: 用一个”栗子“讲清楚泊松分布
我们这篇文章的内容关于统计学中的泊松分布。
举个栗子
8 j* |" Z$ k9 ]5 e! g: L
泊松分布在概率统计当中非常重要,可以很方便地用来计算一些比较难以计算的概率。很多书上会说,泊松分布的本质还是二项分布,泊松分布只是用来简化二项分布计算的。从概念上来说,这的确是对的,但是对于我们初学者,很难完全理解到其中的精髓。
. g3 x6 p& H) @1 R5 a$ J
所以让我们来举个栗子,来通俗地理解一下。

% Z: R2 {& d9 X+ V
假设我们有一颗栗子树,有时候因为风或者是小动物活动的关系,树上可能会掉下栗子来,树上掉栗子显然是一个偶然事件,并且发生的概率很低,那么我们怎么求它的概率分布呢?泊松分布解决的就是这样一个问题。
2 F8 l6 a3 i- y
好像没有一个模型可以直接来刻画这个问题,必须要经过一些转化。
4 |- L$ Z( q4 J2 H& _4 C9 E. Z5 K- D
其实我们可以将事件切分,将这个问题转化成二项分布问题。

6 o* ^; O+ g# F5 Q+ B* | 1.jpg ( ?5 M! Y6 V: M: L
比如我们把一天的时间切分成了若干份,这样对于每一份时间来说,最多只会掉一个栗子。那么,这就转化成了一个二项分布问题。理论上来说不会有两颗栗子掉下的时间完全一样,所以只要我们将时间切分得足够细,就可以保证一段时间之中最多只会掉下一个栗子(否则就不满足二项分布)。
, p, p. t7 T* Z! }& U$ w
假设我们把一天的时间切分成了n份,我们想知道一天当中会有k个栗子掉下的概率,根据二项分布的公式,这个概率就是:
! H/ ^8 L; A9 ?+ b; ~8 D; I4 n4 u; j$ o
2.png + ^' g8 c% Z9 l' B# x' k
到这里,我们往前迈出了坚实的一步,写出了概率的表达式。
推导泊松分布% d* ~# L, E4 {3 |0 g4 f# c' A7 Y
我们虽然有了式子,但是好像没什么用,因为我们只知道p是单位时间内有栗子掉下的概率,我们怎么知道这个概率是多大呢?难道还真的去测量吗?
5 ?6 t; h; U7 u5 B- Z
要解决这个问题,还得回到二项分布。我们可以利用二项分布求一下每天掉下栗子数量的期望,显然对于每一个单位时间而言,发生栗子掉落的概率是p,所以整体的期望是:
) M/ K5 z9 v7 w4 C1 J% t$ d
3.png # Z* C; Y' _! v1 N! c' _2 w% Z4 \
我们令这个期望值是,那么根据这个式子,我们可以表达出p了。
" G5 |# A: l# R& R' E  I& ]$ c 4.png # q* h/ d7 r% A! |# [6 ]! \
我们把这个p的式子带入原式,可以得到:) B* J5 }9 h) y
5.png
. i* d/ w% [8 X+ ]& E* c+ ^我们来算一下这个极限:
  h' O7 W: _# h, N6 ~9 p 6.png
5 `" A6 N4 }1 s$ [& e! Q我们把这个极限拆分开来看,其中:9 Q" ~+ ~( ^8 q$ e
7.png + l! d  T. R9 ]2 k5 k
所以,我们代入,可以得到:
2 X$ [9 G. |2 p! k# w* p8 V 8.png
4 d/ D2 g8 F4 B' ~. |- k- j这个就是泊松分布的概率密度函数了,也就是说在一天当中掉下k个栗子的概率就是5 H; S3 M5 T! F
也就是说泊松分布是我们将时间无限切分,然后套用二项分布利用数学极限推导出来的结果。本质上来说,它的内核仍然是二项分布。使用泊松分布的原因是,当n很大,p很小的时候,我们使用二项分布计算会非常困难,因为使用乘方计算出来的值会非常巨大,这个时候,我们使用泊松分布去逼近这个概率就很方便了。
结尾和升华
- [' [/ u3 E6 R8 k8 Z$ d
我们根据推导出来的结果,感觉只要是n很大,并且p很小的场景都可以使用泊松分布。但是这毕竟只是一个感性的认知,在统计学上对于这个问题也是有严谨定义的。我们来看一下严谨的使用条件的限制,大概是这么三条。
0 l/ |" C+ n, k1 h

9 x* ]3 V; H! ?  K4 x
最后,我们看一道书上的例题,实际感受一下泊松分布的应用。假设我们有一批零件,它的次品率是0.1%,也就是千分之一。请问我们生产一千个产品当中至少有两件次品的概率?
% {  X( m) A% |
这道题应该很简单,要求两件及以上次品的概率,我们只需要计算出只有零件和一件次品的概率,然后用1减去它们即可。我们首先根据n和p算出
  v+ \" N2 i/ U7 o6 a; H
我们带入泊松分布的公式:
5 ~$ q- R2 K0 ^4 R0 [, s+ F
如果我们要用二项分布来计算,那么就需要计算0.999的一千次方了,这显然是非常麻烦的,这也是泊松分布的意义。
转载于公众号:TechFlow/ R  h  E. r+ s: P

/ m/ Y$ u% L( u7 ^
& c3 T$ ~5 {$ G5 w7 {% U1 ]. F" v$ T' c
8 X2 F6 {  ]4 f0 E/ M/ I
作者: 德古拉    时间: 2020-5-15 11:59
Good interpretation~
& q7 O! N9 d% p9 E" ]




欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5