|
我们这篇文章的内容关于统计学中的泊松分布。 举个栗子! N/ l5 H+ G" v: ~8 V$ B, P- S
泊松分布在概率统计当中非常重要,可以很方便地用来计算一些比较难以计算的概率。很多书上会说,泊松分布的本质还是二项分布,泊松分布只是用来简化二项分布计算的。从概念上来说,这的确是对的,但是对于我们初学者,很难完全理解到其中的精髓。
4 y+ v: l# P6 _$ c所以让我们来举个栗子,来通俗地理解一下。 1 [( y+ J2 Y/ z. B" u
假设我们有一颗栗子树,有时候因为风或者是小动物活动的关系,树上可能会掉下栗子来,树上掉栗子显然是一个偶然事件,并且发生的概率很低,那么我们怎么求它的概率分布呢?泊松分布解决的就是这样一个问题。
8 K' M7 H. D- m1 O0 p$ I. [好像没有一个模型可以直接来刻画这个问题,必须要经过一些转化。 + J% N% ?' z% Q3 `2 _/ E: {
其实我们可以将事件切分,将这个问题转化成二项分布问题。
6 {7 i1 L( f& ?$ e
7 f7 G0 V4 F* d4 {
比如我们把一天的时间切分成了若干份,这样对于每一份时间来说,最多只会掉一个栗子。那么,这就转化成了一个二项分布问题。理论上来说不会有两颗栗子掉下的时间完全一样,所以只要我们将时间切分得足够细,就可以保证一段时间之中最多只会掉下一个栗子(否则就不满足二项分布)。 . b9 F( D( B S' i
假设我们把一天的时间切分成了n份,我们想知道一天当中会有k个栗子掉下的概率,根据二项分布的公式,这个概率就是:
( d# ~/ d( b: A
7 c/ P9 |, t0 K [
到这里,我们往前迈出了坚实的一步,写出了概率的表达式。 推导泊松分布 ~2 M7 B4 x5 a& a5 i. ]% m$ @: T
我们虽然有了式子,但是好像没什么用,因为我们只知道p是单位时间内有栗子掉下的概率,我们怎么知道这个概率是多大呢?难道还真的去测量吗?
) W% z N; X. N H5 Q要解决这个问题,还得回到二项分布。我们可以利用二项分布求一下每天掉下栗子数量的期望,显然对于每一个单位时间而言,发生栗子掉落的概率是p,所以整体的期望是:
. K5 O8 V8 r) [( y( x' e* y
7 }, E7 x4 h' u9 t6 T# o4 D% W
我们令这个期望值是 ,那么根据这个式子,我们可以表达出p了。! P7 l. H' U6 e, ]
0 [, S( U$ @7 g( V4 `5 g我们把这个p的式子带入原式,可以得到:! L7 O+ a$ `9 z8 \( `0 D8 R: U
5 Z; y6 ^3 Y9 N我们来算一下这个极限:
- F6 r4 {) |* b* D' G2 t7 d8 Q7 r
* v. d+ F# w3 a# Q我们把这个极限拆分开来看,其中:8 n: M: k4 j0 a! E; ^1 `1 i
" u: [' k# ~5 e; [. z所以,我们代入,可以得到:
; L. M( x! w( T( ^# E B+ E) k% ]- X1 P
0 X0 S& W% [* K# H# i. g4 q
这个就是泊松分布的概率密度函数了,也就是说在一天当中掉下k个栗子的概率就是 。5 r/ n6 W6 R- U# l1 h) D* e0 F
也就是说泊松分布是我们将时间无限切分,然后套用二项分布利用数学极限推导出来的结果。本质上来说,它的内核仍然是二项分布。使用泊松分布的原因是,当n很大,p很小的时候,我们使用二项分布计算会非常困难,因为使用乘方计算出来的值会非常巨大,这个时候,我们使用泊松分布去逼近这个概率就很方便了。 结尾和升华
$ ^; T+ `: ~' X& C: U我们根据推导出来的结果,感觉只要是n很大,并且p很小的场景都可以使用泊松分布。但是这毕竟只是一个感性的认知,在统计学上对于这个问题也是有严谨定义的。我们来看一下严谨的使用条件的限制,大概是这么三条。 # Y, p: }% U5 b1 o2 C5 v
- 当我们将时间进行无线切分之后,在接近于0的时间段内事件发生的概率与时间成正比。
- 在每一段无限小的时间段内,同一事件发生两次的概率无限接近于0
- 在不同的时间段内,事件是否发生互相独立
9 {2 p2 {) k" V) G' R
# ?' t3 i' h/ l: E最后,我们看一道书上的例题,实际感受一下泊松分布的应用。假设我们有一批零件,它的次品率是0.1%,也就是千分之一。请问我们生产一千个产品当中至少有两件次品的概率?
6 ~ E# H5 x0 B- \8 F( ~这道题应该很简单,要求两件及以上次品的概率,我们只需要计算出只有零件和一件次品的概率,然后用1减去它们即可。我们首先根据n和p算出 : % ^& q" L+ S. H4 ]8 Y$ S
我们带入泊松分布的公式: ' @9 ~! A0 k1 n8 v! d! G3 z
如果我们要用二项分布来计算,那么就需要计算0.999的一千次方了,这显然是非常麻烦的,这也是泊松分布的意义。 转载于公众号:TechFlow
% Z2 i0 }, ~1 V8 X5 i1 x: c- J
5 v% Y3 c* z1 q, V: c1 R, v& [
! {8 m: e/ n4 Y( A+ k+ C `5 T6 F
# W2 f7 Y! `' R0 k$ ? |