1.当p=0或者p=1的时候,随机变量可以认为是没有不确定性. : w3 x: p5 U1 D" y K, M2.当p=0.5的时候,H(p)=1,随机变量的不确定性最大.% y( M/ u u" s) X
那么“仿照”之前的信息量的公式,可以推广一下下啦。 : @ h8 ]7 s R5 _+ L9 w' v
假设一个概率分布有两个随机变量决定。其中x有n种取值,y有m种取值。那么可以得到一个nxm的联合概率分布的表。那么有: 8 s# E. |$ l! o' N" d
复合熵(联合熵):" u4 y, L+ v8 V/ j
同样,复合熵的公式还可以推广到连续变量和多个变量的情况。这里就不写了。
条件熵:
8 m. Q! v, X8 r: i: l5 L9 z8 C8 v
$ V9 M- |6 Y, d* m' G( R4 ^+ ]
上面这个公式可能有点难以理解,不知道这个公式是怎么来的。举一个例子来说明一下: % u* b: F% I$ y S, E5 e) H/ u
如果以x表示学生体重,以y表示身高,以 p(x∣y)表示身高为某个特定的y时的体重为x的概率,把熵公式用到这个特殊情况得到是熵显然应当是 / {( Z5 U9 r3 s3 e- t2 V. }上面得到的计算公式是针对y为一个特殊值y时求得的熵。考虑到y会出现各种可能值,如果问已知学生身高时(不特指某一身高,而是泛指身高已经知道)的体重的熵(不确定程度),它应当是把前面的公式依各种y的出现概率做加权平均,那么就可以得到上面的条件熵的公式。 8 c U/ C9 W C# P4 O ; L/ g+ F* G, @2 o; U/ g: hⅢ.变形总结7 t! b, U4 |( [" t$ K" N. o
进过上面的之后,应该对于信息量和信息熵的几个公式有了了解。然后那几个公式还可以变形为一些常用的公式。这里总结一下 K2 L! }8 A+ m5 o: B+ g' z首先要先介绍一下条件分布的乘法定理:, A9 `5 b) ^1 r3 E8 ~ . a$ G# O- B5 h6 {( b4 ~, D4 [7 q" O. t6 Y; N$ {0 C% |: P1 F& Q
然后把之前条件熵式子使用上面这个公式改写一下,可以写为: # i" @" Q$ a! {" h) u$ l 0 D' |: X2 g- t% m1 F, A" X当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到的时候,所对应的熵与条件熵分别称为经验熵(empirical entropy)和经验条件熵(empirical conditional entropy) / k Z R4 \. x }( J7 K V& |9 c4 J+ g D, k0 w" \' _. j
上面的式子表明,只要你能够得到联合分布和y的分布就能够求出条件熵了。事实上,还能够更加简化成为常见的形式: 5 u5 }: j% ^( e9 P- E8 m! }3 L- R r这里利用上面的公式(以离散型为例子)直接推导,有 1 E" I) o/ w# Q9 k4 \: u. N" u, n7 u$ B- D5 d: b; B