- 在线时间
- 2 小时
- 最后登录
- 2017-8-7
- 注册时间
- 2009-6-14
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 13 点
- 威望
- 0 点
- 阅读权限
- 20
- 积分
- 7
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 6
- 主题
- 1
- 精华
- 0
- 分享
- 0
- 好友
- 0
升级   2.11% 该用户从未签到
|
这里的关键问题,是一个“序”的问题!大家在理解《生日问题》的时候,都会把《生日问题》看成是一个没有“序”的问题,因为我们只关心是否有人生日相同,对哪一天发生生日相同事件、这些生日相同事件是如何排序的、或同一天生日的有几个人……等,我们都不必考虑,所以《生日问题》一直被认为是没有“序”的问题。 事实上,《生日问题》有一个内在严格的“序”!一年的365个生日,就像365个席位,本身是严格排序的,它们之间不存在“两两相同”的可能(也就是不存在互相比对的需要)。我们一旦取样N个人,这N个人每个人占据的席位就是确定的,不会再变动,不是同一个席位的任何人之间,根本就不存在互相比对生日相同的必要(或者说比对生日是否相同的概率是确定的0)。用这样的思路来分析这个问题,我们就很清楚了,在这里根据《概率理论》将N个人排列组合后再计算生日相同的概率的做法,是错误的!实际上被取样的N个人,并不是围成一群在互相比对生日,而是直奔自己的席位坐下,不同席位的人,根本不存在比对生日的必要(这种比对是确定的概率为0 事件)。实际情况是:取样N个人,只要这N个人中有人坐到了相同的席位上,就发生了生日相同事件,同时,也一定有“空席位”产生,也就是N个人占据了少于N个席位,所以《生日问题》实际上要研究的,就是被取样的N个人各自坐到自己的席位上以后,占据的席位总数与N是否相同,如果N个人占据的席位数小于N个,就一定发生了生日相同的事件。因此,计算取样N个人发生生日相同事件的概率,关键就是计算N个人应该占据的N个席位中,发生“空席位”的可能是多少。
, D. {- |' f: g 根据这个思路,我做出以下推论: - [3 b* q/ Z8 K& n7 r& X
1.N个人最多占据N个席位(N<366,生日全部不同);
$ n- t2 I8 F& [: m2 `9 tN个人至少占据一个席位(生日全部相同);也就是取样N个人,这N个人占据的席位中,1个座位不为空是绝对的,是概率为1 的事件。
" J* U! ]- t: L; h2.N个人各取哪一天生日,是完全独立的等价事件,互相没有影响。 $ |/ @0 t8 U1 h6 u% `
3.N个人应该占据的N个席位,每一个都有发生空席位的可能性,这些席位发生空席位的可能性,也完全是等价的独立事件,互相没有影响。
& q* ]. Z9 T+ v2 d( X4.所以,每次取样N个人,发生空席位的可能性为N个,但是根据第二条推论,必须减去1个绝对不为空的席位(我们不关心是哪一个)。因此取样N个人,发生空席位的可能性为:(N-1)个;, j; g4 d; E& F; Q" w
5.由于每个人只能有一个生日,只能占据365个席位中的一个,也就是占据所有席位的1/365。而取样N个人,如果没有生日相同事件发生,N个人一定占据所有席位的N/365;如果有生日相同事件发生,就是有空席位事件发生,N个人发生空席位的可能为(N-1)个,所以取样N个人时,发生(N-1)个空席位的可能占总席位数的(N-1)/365,就是取样N个人发生生日相同的概率:& _1 a5 i- d! f" [
P=(N-1)/365
2 _3 `+ L, c; \$ b: {5 h% a; w当 N=1时,P=0,没有生日相同的可能发生;, x) M2 Q5 S2 y) `: X
当 N=366时,P=1,发生生日相同的概率为1。 ) L! d7 f6 f: H$ W: ~4 b! x, u l
这是个完全线性的公式,适用于任何标度。
4 Z" k8 P7 ^1 x9 m0 m 我们可以用这个公式和《生日悖论》的公式做些比较:
9 m: V' R' D) x, V4 n这个线性的公式告诉我们:
6 K! r$ T. Z" g( o当N= 60 时,发生生日相同事件的概率为16.16%; ( R( |' d4 l7 c% i q A
当N=100时,发生生生日相同事件的概率为27.1%;
! K+ z+ V% j9 e& P) p o0 Z当N=200时,发生生日相同事件的概率为54.52%;
4 V& ~3 l+ Y+ O5 l这些结论告诉我们,不要说随机抽取100个人,这些人完全可能均匀的散布在365个席位上,不发生生日相同事件;极端的讲,就是随机抽365个人去坐这365个席位,也有可能正好365个人的生日都不同!
; r5 _, j7 w* j7 n 但是《生日悖论》却告诉我们: / O2 y# M# _1 R- q: n
当N=60 时,发生生日相同事件的概率为99%; 2 E" r W% @1 k( W* Z
当N=100时,发生生日相同事件的概率为99.99996%;
) z, F% N8 y' g5 }/ n当N=200时,发生生日相同事件的概率为0后面29个9!
) j) ?# g0 x9 T; n0 {
* Y# U, B; E: t 写到这里,我用下面的分析,来说明一个很重要的概念。 6 i# K" ]; O1 p' Y
假定取样N个人,我们对最后一个人(N)“入座”前的情况做个分析: 对于任何一次取样,前面(N-1)个人的席位分布只有两种情况: (N-1)个人之间没有人生日相同,那么他们一定占据了(N-1)个席位,对N来讲,他就有(N-1)个他的席位已经有人坐的可能,所以在这种情况下,第N个人所遇到的发生生日相同的可能为(N-1)个,就是取样N个人发生生日相同的全部可能,因为前面没有发生任何生日相同事件。在N之前的(N-1)个人当中,可能发生了M次生日相同的事件(M小于等于N-1),那么在这种情况下,他们一定只占据(N-1-M)个席位,于是对N来讲,他就只有(N-1-M)个他的席位已经有人坐的可能,这个可能加上前面的人可能已经发生的M次生日相同事件,取样N个人发生生日相同的全部可能为:[(N-1-M)+M]=(N-1)个,与《情况一》假定前面没有人生日相同是一样的。
- o z! O% n8 A! \- z; \% ~4 N 现在我们再来重温一下空席位的概念,就会理解上面的结论得更清楚了:取样N个人,除了第一个人以外,从第二个人开始,任何人的席位都有可能已经有人坐了,因而有产生空席位的可能。任何一个人在他寻找自己的席位时,不管他有多少个“产生空席位”的可能,最终坐下后,却只能产生一个空席位,因为一个人只有一个确定的生日,所以一个人可以有很多“产生空席位的可能”,却最多“产生一个空席位”。取样的人越多,每个人产生空席位的可能就越多,但是任何一个人在任何情况下,至最多只能产生一个空席位。
8 J2 V+ V) y; S ]* Z4 f 上面的分析告诉我们一个重要的概念:那就是“比对生日相同的可能”与“发生生日相同的可能”,是很不同的概念,无论在第N个人之前的(N-1)个人之间有多少个“比对生日相同的可能”,我们都不必考虑,我们只要考虑这(N-1)个人之间能发生多少次“生日相同的可能”(M个)。而且对第N个人来讲,前面(N-1)个人中间每发生1个生日相同事件,就一定产生1个空席位,对他(第N个人)来讲,就一定减少了一个入座时发生他的席位有人的可能性,这两者是严格的对等,并且同时发生的!所以不管前面(N-1)人中有没有发生生日相同事件,取样N个人发生生日相同的总可能数,都是(N-1)个,也就是说,取样N个人时,有(N-1)个发生生日相同的可能,已经包括了取样N个人时所有发生生日相同的可能。假定我们再把前面每个人“比对生日相同的可能”都相加,就把很多无效事件作为基本事件在处理了。+ q B1 |' \$ s0 R
c3 c( E2 V/ c; @+ z 我们现在再来分析前面那个直接计算生日相同公式出现的问题,就很清楚了,那个公式在计算取样N个人发生生日相同的概率时,把N个人“产生空席位的可能(也就是比对生日相同的可能)”都加起来了,因而得到了一个等差级数。实际上根据我们的分析,取样N个人,发生生日相同的可能就是(N-1)个,因此,只要用(N-1)替代那个等差级数,生日相同的概率公式就是: M i8 X) ?6 S* M8 _+ d3 Q$ N* w
P=(N-1)/365; / I c$ O1 a* v) D. `
# V2 A9 ]! W( ^
与我们用空席位的办法得出的结论是一致的。 / x, t. D% W! u! P2 z4 a& I
, w' b/ B+ h0 L2 Y- S
我们再来分析得出《生日悖论》的计算公式在哪里出了问题:
; ?: Y. V K+ H$ R3 l1 {
" B5 p) l* w: J' h' i2 ^" G先计算房间里所有人的生日都不相同的概率,那么 ' S# D# C; q& m+ V, P# K( A
第一个人的生日是 365选365
% M6 j" ^5 a. I1 E+ n4 \3 ^第二个人的生日是 365选364 0 U# [& Y( ` K4 u6 K
第三个人的生日是 365选363
9 w' N- }. I) c! z0 I: * ?# E; d- w: a |4 S
第n个人的生日是 365选365-(n-1) D: ~' ~2 G3 ]: u7 j
5 E0 F5 ]) j0 l. E! O我们用两个办法来理解这个公式: j' a- D2 c- O+ I
1.顺着这个说法的思路:每个人的生日取值都应该是365选365,为什么这里N每增加1,选取生日的范围要减少1呢?因为这个公式设定的前提条件是“假定这些人的生日都不相同”,也就是假定(N-1)个人占据了(N-1)个席位,没有空席位发生。所以按这个假设而产生的生日选取模式,必须不断减去前面被占的席位,以确保不发生生日相同事件,所以后面的人的生日取值范围要不断缩小。也就是说,按这样的设定选取生日的办法,本身就保证了取样N个人的时候,这N个人的生日都不同,所以这种生日取值方法本身,就是取样N个人的时候,生日不同的概率!8 h& x7 Y+ `- B& q, K# Y6 X( \
* k6 b( h. o8 s2 m+ T+ q
2.我们也可以这样来理解这个公式:每个人的生日取值都是365 选365,但是第二个人在“入座”时,有一个“自己的席位已经有人的可能”,也就是发生生日相同的可能,发生这个可能的概率为1/365,而我们要计算的是生日不同的概率,因此要减去这个生日相同的概率;第二个人有两个这样的可能……第N个人就有(N-1)个这样的可能。根据前面的概念,这些人发生生日相同的可能不用叠加,重复一下:因为无论在N之前的(N-1)个人之间已经发生了多少次生日相同的事件(M个),对N来讲,他发生生日相同的可能数,一定同时减少了同样的M个,这两者是严格等价的。所以不管取样的人数为多少,第N个人有(N-1)个生日相同的可能,已经包括了前面所有的人发生生日相同的全部可能性。由于这个设定排除了(减去了)取样N个人的时候,全部生日相同的可能,所以这个设定的本身就是取样N个人的时候,大家生日都不同的概率,不能再逐项相乘了,就像直接计算生日相同概率时那样,不能再将前面所有人的发生生日相同的可能逐个相加一样。
% H4 @$ h; M, s) Z( g$ t9 N7 ^* s 于是,取样N个人,生日不同的概率就是: + r6 O# ?, K+ ?! J9 m3 l
P=[365-(N-1)]/365=(366-N)/365; - B9 I9 O; K) ~% z& U. b
用1 减去这个概率,就得到取样N个人,生日相同的概率: 6 M4 g, w: V8 ]% F9 ?' ]% h, ^
P=1-(366-N)/365=(N-1)/365;
6 B# X# j* F( \# M5 `0 [至此,我们用“空席位法”、直接计算生日相同的办法、先计算生日不同的办法……三种办法,得到了统一的结果。 # o9 b9 Y: h" a
- C$ a# b6 `: J w: { 概率理论的问题就是这些吗? 不是!还有一个很重大的问题。 我再举个例子: 为了方便起见,我们假定一年为52周,每周7天,全年为364天。我们把被取样的人群按出生日期所在的“周”,划分成52群,然后在每个人群里随机取样2个人,共取104个人,再来计算这样取样的104个人中间,发生生日相同事件的概率。由于52个周在这里是等价的,我们只要算一个周里随机取样2个人时,发生生日相同的概率,再全部相加(乘以52)就可以得到答案。 8 f% {% Z, o9 w; D/ r4 {
/ f/ O+ @& @/ y0 E, d' m% k6 n1 g N
一周7天,同一周出生的2个人,生日相同的概率为1/7, # p, p/ Z6 v' Z# @3 K4 G" j) u
P=(1/7)*52 远远大于1 ! " X/ D7 C5 s2 s
问题出在哪里呢?
1 r) w9 F9 M/ L: a, p& v8 J( H 我们来分析取样的方式: 由于这些人来自52个不同的周,因此不可能发生重叠取样的问题。实际上即使假定我们还是在未经划分的人群里取样104人,尽管每次取样的104人的分布都不一定均匀,但是根据统计学原理,由于我们设定被取样的人群的生日是均匀分布的,取样是随机的,因此无数次取样的平均值,一定是线性分布的,也就是这104个人本来就应该是均匀分布在52周里的。
7 `) t0 X& @7 V+ M* I1 n! {9 I 我们的计算方式也是没有问题的,因为我们并没有在不同周出生的人之间做无效比对;每周2个人,生日相同的概率就是确定的1/7,用任何公式计算都是这个结果;这52周是完全独立的、等价的;52周的每一个周里被取样的2个人,发生生日相同的概率也是独立的、等价的,所以取样104人发生生日相同的概率,就是应该将这52个概率相加的(52个周之间是“或”的关系,也就是是“加”的关系)。 & C; u; f2 z5 f9 G) m4 H8 V
! U) i4 e" Y" P 看来我们找不到出错的原因,只能得出的唯一结论,就是“不能这样算”!
) D9 |1 }" V" Y- A+ Y
, x+ f& H7 L4 e 从哲学角度看,这个问题的本质就是“非线性系统的局部之和不等于整体”。用线性的概率理论来分割非线性系统后,把分割后的局部都看成是等价的部分,分别计算后再线性叠加,是一定出问题的。
" `. @9 e3 l3 `0 t6 p/ A% }* ~% {: n9 a) `1 V, S( x0 g4 o- l
现在我们再来进一步分析概率的计算理论: 综合概率的频率定义、古典定义、和严格定义,我们知道,概率计算的原始想法就是:尽管每次取样都会发生不同的结果,我们只要把所有可能发生的基本事件用排列组合全部列出来,再把你感兴趣的事件出现的次数全部相加后,除以所有可能出现的基本事件的总数,就得到你感兴趣的事件出现的概率。
" I1 V/ }0 ?' _- i
% r! T f5 o# @( K" b8 o6 y 问题是,我们凭什么认定“所有可能出现的基本事件,它们出现的几率本身是等价的?” 拿上面举过的只涂颜色的小球例子来讲,同样作为基本事件,红红红、蓝蓝蓝、棕棕棕出现的几率,与红蓝棕、红棕蓝、蓝红棕、蓝棕红、棕红蓝、棕蓝红……出现的几率并不是等价的,因为红红红本质上是几个排列的集合;……即使排除正交的因素,我们把9个小球标上1-9的数字,我们又凭什么认定经过所有的排列和组合出现的504个基本事件,每一个基本事件出现的几率是等价的?那只是人为的设定而已! " A( J7 w( B- { H3 A$ g4 Y! Q
; }& X! y: r, _4 x
真实世界是非线性的,用非线性的分形理论来看,实际上每个基本事件都是所要计算的概率的分形,它们具有内在的“自相似性”,所以用形式逻辑去线性的设定它们的等价,就像用数字量去对模拟量进行量子化(数模转换),一定会“遗失非线性部分(描述细节)”的部分。在标度不大或精度要求不高时,误差在许可的范围,当标度扩大后,这种误差一定会达到“离谱”的程度。 |
|