- 在线时间
- 2 小时
- 最后登录
- 2017-8-7
- 注册时间
- 2009-6-14
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 13 点
- 威望
- 0 点
- 阅读权限
- 20
- 积分
- 7
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 6
- 主题
- 1
- 精华
- 0
- 分享
- 0
- 好友
- 0
升级   2.11% 该用户从未签到
|
本帖最后由 商与儒 于 2009-6-14 15:29 编辑 * g$ C9 K/ @4 |! [9 \
; z# C+ F% M; Z+ Y5 l4 r; w《生日悖论》是个有名的根据《概率理论》得出的结论。 / @% @8 X0 k: P1 _8 {4 I* L# }
先把百度百科的相关内容转摘如下:( r; L9 v; @$ W- e3 Z$ O2 ]( }
生日悖论是指,如果一个房间里有23个或23个以上的人,那幺至少有两个人的生日相同的概率要大于50%。这就意味着在一个典型的标准小学班级(30人)中,存在两人生日相同的可能性更高。对于60或者更多的人,这种概率要大于99%。从引起逻辑矛盾的角度来说生日悖论并不是一种悖论,从这个数学事实与一般直觉相抵触的意义上,它才称得上是一个悖论。大多数人会认为,23人中有2人生日相同的概率应该远远小于50%。计算与此相关的概率被称为生日问题,在这个问题之后的数学理论已被用于设计着名的密码攻击方法:生日攻击。
" M% A3 _" ~3 m
# i$ K. l. E& g生日悖论是这样描述的:
4 g! J3 @$ u% @3 T不计特殊的年月,如闰二月。1 U$ t1 A. W3 t8 d; ~; v7 ^! Y
先计算房间里所有人的生日都不相同的概率,那么
/ F7 O( P6 o" ]; m第一个人的生日是 365选365. z2 W4 o2 I- t% j
第二个人的生日是 365选364+ Q# T# h4 l3 M
第三个人的生日是 365选363
9 t$ `8 o% n& U:
( |3 M* r$ D& A6 q* g" x+ m( n第n个人的生日是 365选365-(n-1)! G, f3 E% e, w+ c
所以所有人生日都不相同的概率是:. |& [& @( ]- D8 b2 [
(365/365)× (364/365) ×(363/365) ×(362/365)× ... ×(365-n+1/365)4 o }" m0 a0 P a" ^( k
那幺,n个人中有至少两个人生日相同的概率就是:
$ M9 z1 ^; _. N, b1 q/ r" Y+ {1-(365/365)× (364/365) ×(363/365) ×(362/365)× ... ×(365-n+1/365)7 A# S5 I7 Q. A
所以当n=23的时候,概率为0.5078 Q& Q& C: N$ o9 L$ a
当n=100的时候,概率为0.9999996
5 }7 o% w) }, j: F" Q$ ]) E( I6 w真是不算不知道,一算吓一跳。
* M2 q! H u/ L9 F【理解生日悖论】
7 `4 r2 G: H" L) ^ `1 l, V+ Y 理解生日悖论的关键在于领会相同生日的搭配可以是相当多的。如在前面所提到的例子,23个人可以产生23 × 22/2 = 253种不同的搭配,而这每一种搭配都有成功相等的可能。从这样的角度看,在253种搭配中产生一对成功的配对也并不是那样的不可思议。
! ] t' O0 i; n, o6 }- W于是我开始在网上查,看看有没有人提出过这个论断是错的,结果不但没有找到有人说它错,还看到了这些数据:% Z" Q3 H* p* \7 ?6 j. G# z
当: x6 O( d i- |/ D- `" h
N=50,概率为96.3%,) O6 L6 D7 Q, [) E4 R+ _3 ^
N=60, 概率已经大于99%; ?- U$ T4 [! v, Y; ^7 g* ^1 I' w
N=100,概率为99.99996%;
" N4 Y" U) }. U6 b5 [) Z+ kN=200时,居然为0后面29个9!
' p9 ^8 Y( I: q; h, x
3 A! \3 {" |4 b: S我也看到了描述这个结论的曲线——N过了60人之后,概率已经大于99%,曲线就像一根渐近线,以几乎平行的方式接近概率等于1的直线,最终在N=366处达到1。) \! l0 P' T) u/ g! r' @" M- {2 }
还找到Paul Halmos (1916-2006)用数学论证(非数字方法)对这个论断的证明,Halmos还写了这样一段话:$ L( w+ Q# g6 ~9 l3 p
“这个推导是基于一些数学系学生必须掌握的重要工具。生日问题曾经是一个绝妙的例子,用来演示纯思维是如何胜过机械计算:一两分钟就可以写出这些不等式,而乘法运算则需要更多时间,并更易出错,无论使用的工具是一只铅笔还是一台老式电脑。计算器不能提供的是理解力,或数学才能,或产生更高级、普适化理论的坚实基础。”
! M7 B8 w( _7 L( L% ]9 }2 L$ k" c 同一篇文章中还有这样的说明:生日悖论普遍的应用于检测哈希函数:N-位长度的哈希表可能发生碰撞测试次数不是2N次而是只有2N/2次。这一结论被应用到破解cryptographic hash function的生日攻击中。生日问题所隐含的理论已经在[Schnabel 1938]名字叫做capture-recapture的统计试验得到应用,来估计湖里鱼的数量。4 V; a, U5 }8 M% A8 r; O
还有不少国外的数学家,用其他一些方法,也得出了生日悖论的结果;甚至还有很多如何用各种程序产生随机数来检验这个悖论正确的例子!我在网上查到的概率学,不管国内外,无一例外将它作为教材;我还查到很多用生日悖论作为直观靠不住的例子的文章和书,很多还是科学家写的书……" p1 ^ I+ E2 g8 j& O8 u# A
5 @* i R# o7 j0 [$ B5 S7 Z《生日悖论》难道真的是如此神奇而正确的吗?
) `5 C6 t' m" R8 M; ]# ~/ L/ V0 O1 r; b1 p; ?0 ?6 p
我用两个办法来检验一下:
2 n3 `1 a9 ]0 H* @& u一个就是,直接计算“发生两个人以上生日相同的概率”,而不是先算发生生日不同的概率,再用1去减。
3 m* C: z; v7 Q) L1 I由于每个人只能在365天里的某一天出生,所以每个人的生日取值就是全部生日的1/365。) M2 ^8 |# \3 f `- i
N=1 时,不可能发生生日相同的事件,概率: P=0;
7 I+ y( y, [ fN=2 时,“任意两个人生日相同”的概率: P=1/365;
0 W! |3 I/ O9 O' o9 |N=3;时,设3人为A,B,C;
* x$ i `4 t6 O6 N- ^1 f7 g6 N6 v三个人之间有三个“任意两个人生日相同”的可能(三人及三人以上生日都相同的不是基本事件,被排除):- H. B; O- l- \+ j4 Q( Z1 M( P& t
AB,AC,BC;
7 ~$ X: u: T! i. a因为“任意两个人生日相同”的概率为 1/365;所以三人之间发生两两生日相同的概率为3*(1/365)=3/365;
4 g! K- q+ H9 g+ W+ XN=4 ;A,B,C,D
: P6 s6 g+ S, E9 iAB,AC,AD;
; j' q W9 f# t* n" jBC,BD;7 |4 A& v+ w$ e, `5 M8 E, J
CD
, m8 @0 @( _ @3 Z这里有六个“任意两人生日相同”的可能,所以P=6/365;
4 m* v& I* N, |8 K' X! i, KN=5; A,B,C,D,E
# _1 k# z( v, v+ q9 H" ~# v5 OAB,AC,AD,AE
) l2 g& Y/ n% y% aBC,BD,BE
4 ?8 @* |( U9 W7 R& I% H KCD,CE
0 d2 P5 W/ v3 I% x9 Y1 z2 i2 YDE
5 L( e! U/ Y/ N/ U2 N" o这里有10个“任意两个人生日相同”的可能,所以P=10/365;# I$ O" |' @6 t- }
显然,这是个等差级数,等差级数求和的公式为 N(N-1)/2
7 F7 h, H5 P2 G* K# Y, b; \. K(写到这里我们明白了,取样23个人的时候,比对“两人生日相同”的次数有253个,就是这样算出来的:23*(23-1)/2=253; )
# [: z# k* c- P1 }则,N个人生日相同的概率P=[N*(N-1)] /(2*365)
/ N( L, k1 T- z) @4 e- H但是,, J6 V* L k+ C' } S) U; c
当N=20时,有两个人生日相同的概率为 52%,已经超过50%。
& P* B( N7 H( M* v7 B, i3 u当N=27时,有两个人生日相同的概率为 96%
& D( [7 j9 \! f% w: E1 x4 d' }N=28时,有两个人生日相同的概率为 103%!
9 s9 o% L( }5 q算到这里显然看出这个公式错了!因为概率是不能大于1 的!! g5 C% g6 E& |2 k% a/ s) ?* W8 D
但是从逻辑上、计算上看,我们完全遵循了《概率理论》,这里并没有任何错啊?!
/ U) G' k, O7 ^/ g. ^& J问题在哪里呢?我们后面再分析。
9 n E! L0 I7 i7 A% l5 V6 S; K2 X5 N- t) t4 P3 L
i9 F: o$ _+ W+ |( b$ I- p
我用了第二种方式——扩大它的标度。根据题目的设定,我们知道这个《生日悖论》的结论可以适用于任何标度。假定1年有1000天、10000天、100000天……
2 M( G, v! v( H7 G: ?: D7 z: z按《生日悖论》的算法,我计算出1-1000中,只要随机取38个数,其中两个数相同的概率就达到50%;在1-10000中,只要随机取118个数,其中两个数相同的概率就达到50%;在1-100000中,只要随机取363个数,其中两个数相同的概率就达到50%。
4 ~# c9 C# G* m) X) X 如果计算1-100000个数中,取多少数就能使发生两个相同数的概率超过99.999%, 我估计不会超过5%,将它画成曲线,我们一定会看到这根曲线离开0点后,会很快“直冲云霄”(接近1),这时离开“终点(100000)还有十万八千里!后面的数字却早就全部没有意义了,只有那个100001候补守门员在场外守候,因为最后确定概率为1 非它出场不可! ?& f7 i. S$ P3 t" [" O |
我相信这里一定出问题了!也就是说,我们在365个数字中,只要随机取占总数6.5%个数——23个;在1-1000个数中,只要随机取占总数3.8% 的数——38个;在1-10000中,只要随机取占总数1.18%个数——118个,在1-100000中,只要随机取占总数0.36%个数——363个,则取出的这些数中有两个相同数的概率就都达到了50%!! W5 p6 ]! `. x! }
如果我们把数字扩大到1亿,我相信这个比例会小于万分之一!在1亿个数里随机的取出不到万分之一的数,却能使这些取出的数里有两个相同数的概率大于50%——这绝对是个不符合事实的结论,与之相悖的不是直观,而是事实!2 I+ j. \: I* g
因为根据对题目的分析,我们知道,这个被取样的系统,是设定为一个最分布最均衡的系统,也就是熵为最大的系统。那就是说,无论你如何取样,无论你取样后如何计算,都不可能改变原系统的熵值,也不应该改变原系统的熵值;同样,无论你怎样取样、取样多少,被取样的群体,也应该是熵为最大的系统、与原系统是一致的。但是《生日悖论》的结论却等于告诉我们,只要一取样,被取样部分的“熵值”就变小了!而且这个变小与原系统的标度有关,标度越大的系统,被取样部分的熵值越低!这与题目给出的先决条件显然是相悖的。所以从熵的角度,我们很容易得出《生日悖论》是个谬误的结论!
* H3 n' G( p0 r: A6 s$ x1 ?: Y我们还可以这样来考察《生日悖论》的结论:假定我们对这个熵最大的系统随机取样24人,尽管每次取样的分布都不会一样,但是根据统计学原理,无数次取样的结果应该是线性分布的(因为熵最大、随机取样),那么他们平均分布在12个月的概率应该是最大,也就是平均一个月分布两个人的概率应该是最大的。常识告诉我们,发生两个人生日相同的前提条件,是两个人至少在同一个月里出生,不在同一个月出生的人之间虽然也可以互相比对生日,但是这个比对的结果是确定的概率为0事件(不可能发生的事件),不能列入基本事件。所以23个人虽然有253次比对生日的机会,实际上其中绝大多数是概率为0 的事件,正是由于大量的非基本事件参与了计算,才会得出那么离谱的结论。 |
|