|
机器学习笔记十:各种熵总结(二)二.相对熵 相对熵又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度(即KL散度)等。 & z& g1 C$ @, a3 ?1 v3 @& H* ^
设p(x)和q(x)是取值的两个概率概率分布,则p对q的相对熵为: 6 t' r& ^+ f0 b7 Y
在一定程度上面,相对熵可以度量两个随机变量的距离。也常常用相对熵来度量两个随机变量的距离。当两个随机分布相同的时候,他们的相对熵为0,当两个随机分布的差别增大的时候,他们之间的相对熵也会增大。 ! ]! V" m% C: q; R/ m
但是事实上面,他并不是一个真正的距离。因为相对熵是不具有对称性的,即一般来说 相对熵还有一个性质,就是不为负。8 A* t* f: R H
: a' d) ~9 e4 ?) f- d$ \" `# `1 F
三.互信息& N" v$ H2 [, \
互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。
; U; ]7 p/ K- Y5 [2 S {两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。
% ^2 Y. y) `9 O f7 }6 P0 X![]()
8 y/ O8 g/ o0 `& K. E& f6 }8 k/ _4 S" `: C* V
那么互信息有什么更加深层次的含义呢?首先计算一个式子先:
z1 P- H- y) G4 z![]()
' m W# H. N) H% j从这个公式可以知道,X的熵减去X和Y的互信息之后,可以得到在Y给定的情况下X的熵。 四.总结 $ E4 m+ z$ g7 n. b0 @
0 w4 W" b- J+ K) z. o1 q5 w2 x$ ~ @8 j T' ]) w1 R
3 j5 _5 b& F1 S! Y |