西莫恩·德尼·泊松(Simeon-Denis Poisson 1781~1840)法国数学家、几何学家和物理学家。1781年6月21日生于法国卢瓦雷省的皮蒂维耶,1840年4月25日卒于法国索镇。1798年入巴黎综合工科学校深造。受到拉普拉斯、拉格朗日的赏识。1800年毕业后留校任教,1802年任副教授,1806年任教授。1808年任法国经度局天文学家。1809年巴黎理学院成立,任该校数学教授。1812年当选为巴黎科学院院士。泊松的科学生涯开始于研究微分方程及其在摆的运动和声学理论中的应用。他工作的特色是应用数学方法研究各类物理问题,并由此得到数学上的发现。他对积分理论、行星运动理论、热物理、弹性理论、电磁理论、位势理论和概率论都有重要贡献。他还是19世纪概率统计领域里的卓越人物。他改进了概率论的运用方法,特别是用于统计方面的方法,建立了描述随机现象的一种概率分布──泊松分布。他推广了"大数定律",并导出了在概率论与数理方程中有重要应用的泊松积分。
& ]" A; E, Y6 @8 P
7 `' B, f+ s# O泊松分布是1837年泊松在他所著的关于概率论在诉讼、刑事审讯等方面应用的书中提出的。虽然这个分布却在更早些时候由贝努里家族的一个人描述过,但是后来人们还是以泊松来命名这个分布,类似的情况在科学家非常多。直到1898年由Ladislaus Bortkiewicz提出了一个实际应用的例子。当时他得到一个任务,调查1875到1894年的20年间普鲁士军队十四个军团部中偶然被马伤踢而致死的士兵数量。这 20×14= 280个(团年)纪录,按死亡人数来分,则如下表的左二栏所示
6 [4 v5 }: l+ D1 {: ~ F* q- C8 w/ C* O7 G0 t
5 d* B- I& y7 F: Q2 \ o- E3 }. V5 x! \在280个团年记录中,死亡的人数共有196,因此致死率为α=196/280=0.7(人/团年)。 因为单位是1团年,所以λ=α×1=0.7,我们就以此λ为泊松分布中的常数。理想中每团每年死亡人数x要遵循泊松分布p(x;0.7)。 表中右栏就是根据这样的泊松分布,把280团年该有x人死亡的团年数列出。可以看到,右边两列的数据相当吻合。! ]3 T4 z% Z: a* }+ h: p' r( W, l- c
. a2 D8 ]7 o; G7 c2 q8 |
下面来看看泊松分布是怎么定义的。 考察一个变量是否服从泊松分布,需要满足以下条件: - X是在一个区间(时间、空间、长度、面积、部件、整机等等)内发生特定事件的次数,可以取值为0,1,2,…;
- 一个事件的发生不影响其它事件的发生,即事件独立发生;
- 事件的发生率是相同的,不能有些区间内发生率高一些而另一些区间低一些;
- 两个事件不能在同一个时刻发生;
- 一个区间内一个事件发生的概率与区间的大小成比例。* S0 Q# r" W, R z7 l
! C$ w3 T. ?! ?" t% P1 A; S; |" L
满足以上条件,则X就是泊松随机变量,其分布就是泊松分布。 泊松分布的概率分布为
& w! h2 B% N3 l- b( U3 T( `4 m- i/ V$ b% T3 i
其中:λ>0是常数,是区间事件发生率的均值。
1 ^: J4 l6 |: z9 D+ m f" y: \- V" R7 x( y4 x2 @3 {
泊松分布是一种描述和分析稀有事件的概率分布。要观察到这类事件,样本含量n必须很大。比如一个产品存在瑕疵的数量,广深高速每天出现交通事故的数量,放射性物质在单位时间内的放射次数,一匹布中疵点的数量等等,等等。 举个例子说明泊松分布的一个应用(来自阮一峰先生的网络日志,侵删) 问题:已知某家小杂货店,平均每周售出2个水果罐头。请问该店水果罐头的最佳库存量是多少? 假定不存在季节因素,可以近似认为,这个问题满足以下三个条件: (1)顾客购买水果罐头是小概率事件。 (2)购买水果罐头的顾客是独立的,不会互相影响。 (3)顾客购买水果罐头的概率是稳定的。 在统计学上,只要某类事件满足上面三个条件,它就服从"泊松分布"。 根据公式,计算得到每周销量的分布:
) G3 k$ `4 q! z& t4 Z5 t
# d* _% G, p0 g, h4 T: L从上表可见,如果存货4个罐头,95%的概率不会缺货(平均每19周发生一次);如果存货5个罐头,98%的概率不会缺货(平均59周发生一次)。 泊松分布有一个很好的性质,即如果把大区间分成若干个小区间,或者若干个小区间合并成1个大区间,则随机变量仍然服从泊松分布,其均值就变成为λ/k或λ×k,其中k为分解或合并的区间数量。比如交警部门在研究广深高速上车辆事故次数时,发现每天的事故次数太少了,经常是0次、1次,偶尔有2次,这样就可以考虑以周为单位来统计,如果仍嫌少,则可以考虑以月为单位。这样就可以把数据放大到利于分析。 泊松分布通常也用于二项分布的近似计算。当n很大,而p很小时,在没有计算机时,二项分布的计算是非常麻烦的,而用泊松分布来近似计算可以降低大量的计算量。近似时,λ=np,下表就是在n=100,p=0.02时,二项分布和泊松分布计算结果的对比,可以看出,两者差异很小。一般来讲,n≥100,np≤10近似效果较好。
' Q) v( q3 s9 U" e S
- `& ?* ~5 \9 K, m* B在六西格玛中,我们用二项分布来分析合格率,用泊松分布来分析缺陷率,如DPU、DPMO。合格率是0~1之间的数字,而缺陷率却可以大于1,也就是说一个产品中可以有若干个缺陷,这应该很容易理解。 需要注意的是,有缺陷的产品不一定不合格,不合格的产品可能包括不止1个缺陷。这在六西格玛课堂上老师都应该反复强调过。 当λ≥20时,泊松分布可以用正态分布来近似,当λ≥50,泊松分布基本上就等于正态分布了。此时
, ~- h+ _5 t) _7 T5 E. \3 m% O* ]: M. u) M7 |! F6 H. V
由此可见,当离散数据的值足够大时,可以当成连续数据来分析。
2 P, {' {9 e6 X
5 D* p+ v/ Y: D
; `. J* J) a: c8 y) ~8 K |