- 在线时间
- 2 小时
- 最后登录
- 2017-8-7
- 注册时间
- 2009-6-14
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 13 点
- 威望
- 0 点
- 阅读权限
- 20
- 积分
- 7
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 6
- 主题
- 1
- 精华
- 0
- 分享
- 0
- 好友
- 0
升级   2.11% 该用户从未签到
|
这里的关键问题,是一个“序”的问题!大家在理解《生日问题》的时候,都会把《生日问题》看成是一个没有“序”的问题,因为我们只关心是否有人生日相同,对哪一天发生生日相同事件、这些生日相同事件是如何排序的、或同一天生日的有几个人……等,我们都不必考虑,所以《生日问题》一直被认为是没有“序”的问题。 事实上,《生日问题》有一个内在严格的“序”!一年的365个生日,就像365个席位,本身是严格排序的,它们之间不存在“两两相同”的可能(也就是不存在互相比对的需要)。我们一旦取样N个人,这N个人每个人占据的席位就是确定的,不会再变动,不是同一个席位的任何人之间,根本就不存在互相比对生日相同的必要(或者说比对生日是否相同的概率是确定的0)。用这样的思路来分析这个问题,我们就很清楚了,在这里根据《概率理论》将N个人排列组合后再计算生日相同的概率的做法,是错误的!实际上被取样的N个人,并不是围成一群在互相比对生日,而是直奔自己的席位坐下,不同席位的人,根本不存在比对生日的必要(这种比对是确定的概率为0 事件)。实际情况是:取样N个人,只要这N个人中有人坐到了相同的席位上,就发生了生日相同事件,同时,也一定有“空席位”产生,也就是N个人占据了少于N个席位,所以《生日问题》实际上要研究的,就是被取样的N个人各自坐到自己的席位上以后,占据的席位总数与N是否相同,如果N个人占据的席位数小于N个,就一定发生了生日相同的事件。因此,计算取样N个人发生生日相同事件的概率,关键就是计算N个人应该占据的N个席位中,发生“空席位”的可能是多少。
4 k$ ?$ E) I$ G; J& |* }/ u) [. } 根据这个思路,我做出以下推论:
1 k# S# M+ W, g1.N个人最多占据N个席位(N<366,生日全部不同); - K3 T, q8 M! A8 Z- u$ }
N个人至少占据一个席位(生日全部相同);也就是取样N个人,这N个人占据的席位中,1个座位不为空是绝对的,是概率为1 的事件。
, B; X1 q; o+ I# J2.N个人各取哪一天生日,是完全独立的等价事件,互相没有影响。
$ m/ q7 f. H4 p2 V$ J. K( }3.N个人应该占据的N个席位,每一个都有发生空席位的可能性,这些席位发生空席位的可能性,也完全是等价的独立事件,互相没有影响。7 A4 ^/ T" G# ?
4.所以,每次取样N个人,发生空席位的可能性为N个,但是根据第二条推论,必须减去1个绝对不为空的席位(我们不关心是哪一个)。因此取样N个人,发生空席位的可能性为:(N-1)个;
& {& L4 z' y/ N. W5.由于每个人只能有一个生日,只能占据365个席位中的一个,也就是占据所有席位的1/365。而取样N个人,如果没有生日相同事件发生,N个人一定占据所有席位的N/365;如果有生日相同事件发生,就是有空席位事件发生,N个人发生空席位的可能为(N-1)个,所以取样N个人时,发生(N-1)个空席位的可能占总席位数的(N-1)/365,就是取样N个人发生生日相同的概率:" G2 A' ^( t( Q! W/ f4 M- @1 x
P=(N-1)/365 " y$ L5 o! ?7 J7 A4 i3 i
当 N=1时,P=0,没有生日相同的可能发生;
/ M5 K. g7 F/ z9 a当 N=366时,P=1,发生生日相同的概率为1。
4 W: D0 L4 F% [6 b T( P. { 这是个完全线性的公式,适用于任何标度。 ! W. W7 j6 D# r; Y
我们可以用这个公式和《生日悖论》的公式做些比较:
) B$ W' b( i* N; B# K这个线性的公式告诉我们:
2 I/ D6 b. Q8 ?$ L% C% {当N= 60 时,发生生日相同事件的概率为16.16%; 3 I+ M& [0 k3 c3 q8 y |, p
当N=100时,发生生生日相同事件的概率为27.1%; ! N; I0 D6 B, ` d5 c
当N=200时,发生生日相同事件的概率为54.52%; ) s/ g- V1 ]) a1 K: b0 V6 k
这些结论告诉我们,不要说随机抽取100个人,这些人完全可能均匀的散布在365个席位上,不发生生日相同事件;极端的讲,就是随机抽365个人去坐这365个席位,也有可能正好365个人的生日都不同!
0 M7 ~" h1 g; l3 e1 z 但是《生日悖论》却告诉我们:
' U6 s+ U4 P& N) I当N=60 时,发生生日相同事件的概率为99%;
. y5 n6 Y/ A" c& s# [1 v, V, `当N=100时,发生生日相同事件的概率为99.99996%;
! I0 Q) Z* u( D& E& U" t. _1 W7 ?7 W当N=200时,发生生日相同事件的概率为0后面29个9!
$ M9 a$ I" ^: g5 R8 d6 C; J7 h+ |' r/ q8 v' ]; g7 B( t, N) T
写到这里,我用下面的分析,来说明一个很重要的概念。
( X2 s, m; d* v7 [7 N; Q- x 假定取样N个人,我们对最后一个人(N)“入座”前的情况做个分析: 对于任何一次取样,前面(N-1)个人的席位分布只有两种情况: (N-1)个人之间没有人生日相同,那么他们一定占据了(N-1)个席位,对N来讲,他就有(N-1)个他的席位已经有人坐的可能,所以在这种情况下,第N个人所遇到的发生生日相同的可能为(N-1)个,就是取样N个人发生生日相同的全部可能,因为前面没有发生任何生日相同事件。在N之前的(N-1)个人当中,可能发生了M次生日相同的事件(M小于等于N-1),那么在这种情况下,他们一定只占据(N-1-M)个席位,于是对N来讲,他就只有(N-1-M)个他的席位已经有人坐的可能,这个可能加上前面的人可能已经发生的M次生日相同事件,取样N个人发生生日相同的全部可能为:[(N-1-M)+M]=(N-1)个,与《情况一》假定前面没有人生日相同是一样的。 , C% S4 l% O& X: ^* j- f5 J
现在我们再来重温一下空席位的概念,就会理解上面的结论得更清楚了:取样N个人,除了第一个人以外,从第二个人开始,任何人的席位都有可能已经有人坐了,因而有产生空席位的可能。任何一个人在他寻找自己的席位时,不管他有多少个“产生空席位”的可能,最终坐下后,却只能产生一个空席位,因为一个人只有一个确定的生日,所以一个人可以有很多“产生空席位的可能”,却最多“产生一个空席位”。取样的人越多,每个人产生空席位的可能就越多,但是任何一个人在任何情况下,至最多只能产生一个空席位。
' V# p' ?" U. a0 q* @( w9 q) C6 n 上面的分析告诉我们一个重要的概念:那就是“比对生日相同的可能”与“发生生日相同的可能”,是很不同的概念,无论在第N个人之前的(N-1)个人之间有多少个“比对生日相同的可能”,我们都不必考虑,我们只要考虑这(N-1)个人之间能发生多少次“生日相同的可能”(M个)。而且对第N个人来讲,前面(N-1)个人中间每发生1个生日相同事件,就一定产生1个空席位,对他(第N个人)来讲,就一定减少了一个入座时发生他的席位有人的可能性,这两者是严格的对等,并且同时发生的!所以不管前面(N-1)人中有没有发生生日相同事件,取样N个人发生生日相同的总可能数,都是(N-1)个,也就是说,取样N个人时,有(N-1)个发生生日相同的可能,已经包括了取样N个人时所有发生生日相同的可能。假定我们再把前面每个人“比对生日相同的可能”都相加,就把很多无效事件作为基本事件在处理了。7 y, }5 o- j d4 Q
2 S6 W0 A2 P, h' K
我们现在再来分析前面那个直接计算生日相同公式出现的问题,就很清楚了,那个公式在计算取样N个人发生生日相同的概率时,把N个人“产生空席位的可能(也就是比对生日相同的可能)”都加起来了,因而得到了一个等差级数。实际上根据我们的分析,取样N个人,发生生日相同的可能就是(N-1)个,因此,只要用(N-1)替代那个等差级数,生日相同的概率公式就是:
- h& `! m' |+ W2 g+ l- B) ]P=(N-1)/365;
4 j9 W8 U% l1 H* X. E7 [0 j& ~3 K2 ^- |8 B, T6 y! t# m
与我们用空席位的办法得出的结论是一致的。
; r9 G" {2 [0 W! J
. J4 k) C' o' D2 {; L 我们再来分析得出《生日悖论》的计算公式在哪里出了问题: ' I4 J; j4 c2 m& |7 q: @
; t" N+ ]- F; e2 S% x
先计算房间里所有人的生日都不相同的概率,那么
S5 P2 A" E3 A9 P+ z- X1 r第一个人的生日是 365选365 9 J7 F8 Q( y& _& y0 [) m
第二个人的生日是 365选364
" v+ C, G" c" U6 Y9 m第三个人的生日是 365选363
1 t4 r0 `: X. @. u: ( B$ K- P. Q0 {
第n个人的生日是 365选365-(n-1)
1 v+ J) n% e* w) O+ y! K; i# T# X2 x+ S; Q! q: e, p
我们用两个办法来理解这个公式:- ~: C& T$ G* x& V5 b. w, W
1.顺着这个说法的思路:每个人的生日取值都应该是365选365,为什么这里N每增加1,选取生日的范围要减少1呢?因为这个公式设定的前提条件是“假定这些人的生日都不相同”,也就是假定(N-1)个人占据了(N-1)个席位,没有空席位发生。所以按这个假设而产生的生日选取模式,必须不断减去前面被占的席位,以确保不发生生日相同事件,所以后面的人的生日取值范围要不断缩小。也就是说,按这样的设定选取生日的办法,本身就保证了取样N个人的时候,这N个人的生日都不同,所以这种生日取值方法本身,就是取样N个人的时候,生日不同的概率!
l3 E2 l$ F N- x9 @0 D 3 `4 L0 n( L4 Y/ C4 m
2.我们也可以这样来理解这个公式:每个人的生日取值都是365 选365,但是第二个人在“入座”时,有一个“自己的席位已经有人的可能”,也就是发生生日相同的可能,发生这个可能的概率为1/365,而我们要计算的是生日不同的概率,因此要减去这个生日相同的概率;第二个人有两个这样的可能……第N个人就有(N-1)个这样的可能。根据前面的概念,这些人发生生日相同的可能不用叠加,重复一下:因为无论在N之前的(N-1)个人之间已经发生了多少次生日相同的事件(M个),对N来讲,他发生生日相同的可能数,一定同时减少了同样的M个,这两者是严格等价的。所以不管取样的人数为多少,第N个人有(N-1)个生日相同的可能,已经包括了前面所有的人发生生日相同的全部可能性。由于这个设定排除了(减去了)取样N个人的时候,全部生日相同的可能,所以这个设定的本身就是取样N个人的时候,大家生日都不同的概率,不能再逐项相乘了,就像直接计算生日相同概率时那样,不能再将前面所有人的发生生日相同的可能逐个相加一样。
" @* d& n+ l3 j 于是,取样N个人,生日不同的概率就是: ) j1 h( W4 S( J) ~4 s
P=[365-(N-1)]/365=(366-N)/365;
4 o2 B. \8 Q& m# y: i4 i7 t. C用1 减去这个概率,就得到取样N个人,生日相同的概率:
% k5 a, r, a( C" }P=1-(366-N)/365=(N-1)/365;
& E! v3 e3 J N4 W) `2 B$ L至此,我们用“空席位法”、直接计算生日相同的办法、先计算生日不同的办法……三种办法,得到了统一的结果。
, J9 d6 m# U* P" ]4 J1 a% S( ?: `4 E6 w
概率理论的问题就是这些吗? 不是!还有一个很重大的问题。 我再举个例子: 为了方便起见,我们假定一年为52周,每周7天,全年为364天。我们把被取样的人群按出生日期所在的“周”,划分成52群,然后在每个人群里随机取样2个人,共取104个人,再来计算这样取样的104个人中间,发生生日相同事件的概率。由于52个周在这里是等价的,我们只要算一个周里随机取样2个人时,发生生日相同的概率,再全部相加(乘以52)就可以得到答案。
, I8 I/ A: T5 b* a6 K7 L0 k! f- o% F% v7 K) C9 [. H, [, M: i
一周7天,同一周出生的2个人,生日相同的概率为1/7, 6 e5 E y4 m8 P8 A5 T
P=(1/7)*52 远远大于1 !
% H; j1 T f: }' k! K 问题出在哪里呢?
+ `/ S I- ]1 x 我们来分析取样的方式: 由于这些人来自52个不同的周,因此不可能发生重叠取样的问题。实际上即使假定我们还是在未经划分的人群里取样104人,尽管每次取样的104人的分布都不一定均匀,但是根据统计学原理,由于我们设定被取样的人群的生日是均匀分布的,取样是随机的,因此无数次取样的平均值,一定是线性分布的,也就是这104个人本来就应该是均匀分布在52周里的。 x( A7 }1 d) D& C- F; H
我们的计算方式也是没有问题的,因为我们并没有在不同周出生的人之间做无效比对;每周2个人,生日相同的概率就是确定的1/7,用任何公式计算都是这个结果;这52周是完全独立的、等价的;52周的每一个周里被取样的2个人,发生生日相同的概率也是独立的、等价的,所以取样104人发生生日相同的概率,就是应该将这52个概率相加的(52个周之间是“或”的关系,也就是是“加”的关系)。 , i2 A$ h2 V' V1 d; X5 p {
# f7 q4 G! x; A) \: a2 A 看来我们找不到出错的原因,只能得出的唯一结论,就是“不能这样算”! 1 m' w" h! P0 x/ O; K
2 o* k/ ?, L# G 从哲学角度看,这个问题的本质就是“非线性系统的局部之和不等于整体”。用线性的概率理论来分割非线性系统后,把分割后的局部都看成是等价的部分,分别计算后再线性叠加,是一定出问题的。
4 u' J" g S' s8 [8 y" g' ?* G# r* V7 c5 L; Q$ s7 N7 d
现在我们再来进一步分析概率的计算理论: 综合概率的频率定义、古典定义、和严格定义,我们知道,概率计算的原始想法就是:尽管每次取样都会发生不同的结果,我们只要把所有可能发生的基本事件用排列组合全部列出来,再把你感兴趣的事件出现的次数全部相加后,除以所有可能出现的基本事件的总数,就得到你感兴趣的事件出现的概率。9 f; ^4 y7 n" a" j+ z7 C2 L
' Y- q2 d, h+ h/ v0 a2 q 问题是,我们凭什么认定“所有可能出现的基本事件,它们出现的几率本身是等价的?” 拿上面举过的只涂颜色的小球例子来讲,同样作为基本事件,红红红、蓝蓝蓝、棕棕棕出现的几率,与红蓝棕、红棕蓝、蓝红棕、蓝棕红、棕红蓝、棕蓝红……出现的几率并不是等价的,因为红红红本质上是几个排列的集合;……即使排除正交的因素,我们把9个小球标上1-9的数字,我们又凭什么认定经过所有的排列和组合出现的504个基本事件,每一个基本事件出现的几率是等价的?那只是人为的设定而已!
; w& O `" J6 t* R9 s
* K7 H; D& p$ t4 G 真实世界是非线性的,用非线性的分形理论来看,实际上每个基本事件都是所要计算的概率的分形,它们具有内在的“自相似性”,所以用形式逻辑去线性的设定它们的等价,就像用数字量去对模拟量进行量子化(数模转换),一定会“遗失非线性部分(描述细节)”的部分。在标度不大或精度要求不高时,误差在许可的范围,当标度扩大后,这种误差一定会达到“离谱”的程度。 |
|