|
机器学习笔记十:各种熵总结(二)二.相对熵 相对熵又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度(即KL散度)等。 % T: o6 J- @8 P0 G
设p(x)和q(x)是取值的两个概率概率分布,则p对q的相对熵为: * q. e- [5 ^9 B
在一定程度上面,相对熵可以度量两个随机变量的距离。也常常用相对熵来度量两个随机变量的距离。当两个随机分布相同的时候,他们的相对熵为0,当两个随机分布的差别增大的时候,他们之间的相对熵也会增大。 3 M4 L2 H( T$ I' W- y
但是事实上面,他并不是一个真正的距离。因为相对熵是不具有对称性的,即一般来说 相对熵还有一个性质,就是不为负。
: P# Y7 r1 c2 ?. ` + o" B0 w: u/ u" N5 _9 ^1 P+ e( A
三.互信息
% F; x# Y; l0 T) l" U+ Z, q互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。
1 e( u. E) C% U两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。
8 Z( e5 b! i4 |9 i1 \2 t 8 F& s4 {8 v8 D# a' D0 d6 N* u+ R' {
9 m: l* l3 p! j; J9 O. M! Z6 I/ Y
那么互信息有什么更加深层次的含义呢?首先计算一个式子先: 1 ~2 j2 Z6 A7 L& W2 q0 b- X$ J
![]()
+ }- J5 E1 _3 J, X从这个公式可以知道,X的熵减去X和Y的互信息之后,可以得到在Y给定的情况下X的熵。 四.总结 2 o$ W7 g: p" X# E) |3 x
5 y$ F. l/ r, }4 k" y$ x
; W2 m D/ j8 y Y* f9 r, V3 `, G& a% d8 U
|