|
机器学习笔记十:各种熵总结(二)二.相对熵 相对熵又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度(即KL散度)等。 & l! w+ j) [4 `# u2 c
设p(x)和q(x)是取值的两个概率概率分布,则p对q的相对熵为: # t) R8 M, |; T) H m
在一定程度上面,相对熵可以度量两个随机变量的距离。也常常用相对熵来度量两个随机变量的距离。当两个随机分布相同的时候,他们的相对熵为0,当两个随机分布的差别增大的时候,他们之间的相对熵也会增大。
+ s& y% r# N9 S) U1 ?但是事实上面,他并不是一个真正的距离。因为相对熵是不具有对称性的,即一般来说 相对熵还有一个性质,就是不为负。) o" A2 V9 ?4 x3 j
![]()
: {# p8 j6 o8 H* s8 h三.互信息
5 V8 @3 N; p" f互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。 * N7 X: N+ I+ w( ~6 S& f) p5 L& u( G
两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。
& Q# k% q5 M0 d( D![]()
% ?. o. z# z; R9 V! h7 b) X
9 p2 Z' c& |* I. k那么互信息有什么更加深层次的含义呢?首先计算一个式子先:
, J! `7 R8 M* b6 H4 r2 o![]()
0 S' K5 @& s* s从这个公式可以知道,X的熵减去X和Y的互信息之后,可以得到在Y给定的情况下X的熵。 四.总结 / g! ?8 s1 @$ C) T: w ]: F
- z+ N; R$ J4 X% E9 ~" @) G3 ~4 @( n3 }8 Y% v
+ F0 v) U0 X4 w1 u2 J |