|
机器学习笔记十:各种熵总结(二)二.相对熵 相对熵又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度(即KL散度)等。
" E" f+ r. y, c) v" {. ?设p(x)和q(x)是取值的两个概率概率分布,则p对q的相对熵为: * W- L' B3 j$ s
在一定程度上面,相对熵可以度量两个随机变量的距离。也常常用相对熵来度量两个随机变量的距离。当两个随机分布相同的时候,他们的相对熵为0,当两个随机分布的差别增大的时候,他们之间的相对熵也会增大。 1 a4 Q4 |8 }. Z
但是事实上面,他并不是一个真正的距离。因为相对熵是不具有对称性的,即一般来说 相对熵还有一个性质,就是不为负。
! I' b- k* r4 s! {% g: d3 O) [0 S![]()
V6 P& ~5 o; J: P+ M三.互信息
) l; i: B8 q1 Y5 l" ^9 Q互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。 $ f! E: m2 U8 ^
两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。
2 u8 X7 G* _2 G4 j1 [![]()
) U" E t+ a3 `$ ~
8 O/ t4 r" G! p8 T1 Y l那么互信息有什么更加深层次的含义呢?首先计算一个式子先:
8 c1 y. ?0 C. c , f) {3 G2 Y( T* t
从这个公式可以知道,X的熵减去X和Y的互信息之后,可以得到在Y给定的情况下X的熵。 四.总结 7 ~& J/ O. C6 T1 e4 u6 E9 |
) q/ K) K: ~; k8 C# K
7 f8 E* o* Y4 T7 V4 V, g1 a
: s ], `2 O/ S) C4 B5 ?6 U0 x
|