|
机器学习笔记十:各种熵总结(二)二.相对熵 相对熵又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度(即KL散度)等。 ; Y' u: d: x: `: w
设p(x)和q(x)是取值的两个概率概率分布,则p对q的相对熵为: 0 ?! x' [3 S# p) Z1 S2 x
在一定程度上面,相对熵可以度量两个随机变量的距离。也常常用相对熵来度量两个随机变量的距离。当两个随机分布相同的时候,他们的相对熵为0,当两个随机分布的差别增大的时候,他们之间的相对熵也会增大。
8 h& s ~3 ~4 W: W2 m但是事实上面,他并不是一个真正的距离。因为相对熵是不具有对称性的,即一般来说 相对熵还有一个性质,就是不为负。
* P! B+ D- L9 r3 m 4 Y! x) Q8 \2 y
三.互信息. x1 V/ _. t4 `
互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。
* f p, e% [: P两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。
0 c; y' S/ `: t( O 4 b9 |8 d& C( k3 T& p+ i4 Q
7 P. o: Y3 \+ h% Y& y
那么互信息有什么更加深层次的含义呢?首先计算一个式子先:
3 B4 j4 u0 z4 l" I![]()
# x7 G w. G% D- x7 ? O& A4 {5 Y从这个公式可以知道,X的熵减去X和Y的互信息之后,可以得到在Y给定的情况下X的熵。 四.总结![]()
9 u9 V& D4 r6 f+ f) h+ x# \$ V' J5 U& ~( ?8 w; {
4 S$ S! w# K5 W7 C
$ U; |. u, @- @+ R |