|
机器学习笔记十:各种熵总结(二)二.相对熵 相对熵又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度(即KL散度)等。
8 q4 j) u* g" ^: Y2 H! }& A设p(x)和q(x)是取值的两个概率概率分布,则p对q的相对熵为: ![]()
+ {$ @+ e$ E! W: U, {: K" l" L在一定程度上面,相对熵可以度量两个随机变量的距离。也常常用相对熵来度量两个随机变量的距离。当两个随机分布相同的时候,他们的相对熵为0,当两个随机分布的差别增大的时候,他们之间的相对熵也会增大。 J$ ]- B# c% ~' ?7 {$ ?" V6 j* v
但是事实上面,他并不是一个真正的距离。因为相对熵是不具有对称性的,即一般来说 相对熵还有一个性质,就是不为负。
# w7 Z% o* @3 v+ J @9 s![]()
- W; [5 u; Y5 ]. b( C& X三.互信息% v) E& d2 y7 n
互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。
" d' ~4 w1 A% p! ?5 ]/ o两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。 - {: _ e' W4 J
' ^, V& z- I% f( B
, p0 P" v. r. X4 O* y8 ]7 E4 F那么互信息有什么更加深层次的含义呢?首先计算一个式子先:
4 `7 p2 @" o2 V( c" U4 x$ b + d; C' X+ j3 S* T( u
从这个公式可以知道,X的熵减去X和Y的互信息之后,可以得到在Y给定的情况下X的熵。 四.总结![]()
7 x. U7 ^5 w5 V. }( X8 i0 a0 F& K, J% ^) P# v: Y
9 J. Q! i# M4 V7 ^. V; j L1 h% m, w( t! A' r1 F2 r9 b
|