|
机器学习笔记十:各种熵总结(二)二.相对熵 相对熵又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度(即KL散度)等。
6 y$ O! j1 Z3 J6 G设p(x)和q(x)是取值的两个概率概率分布,则p对q的相对熵为: 6 T+ Y5 \% Q5 u8 v+ ^$ u2 h/ ]6 c
在一定程度上面,相对熵可以度量两个随机变量的距离。也常常用相对熵来度量两个随机变量的距离。当两个随机分布相同的时候,他们的相对熵为0,当两个随机分布的差别增大的时候,他们之间的相对熵也会增大。
5 C" V0 S- e3 j. B. X" e但是事实上面,他并不是一个真正的距离。因为相对熵是不具有对称性的,即一般来说 相对熵还有一个性质,就是不为负。
9 W% ~4 \1 ^! i) S0 D: ~ 2 z, L; T+ i- `- W( J$ _
三.互信息- R+ {8 x; R0 z$ c e* m/ r
互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。
8 a8 o2 E: P2 k) A, T5 j2 U两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。
) r' x' F3 O. t![]()
% w W+ f w& Y& Z0 n, P# q5 o. t
' `# |) C! V, b3 C4 d那么互信息有什么更加深层次的含义呢?首先计算一个式子先:
8 n$ z, u- L$ g$ I9 J9 A" G V8 r : J r7 B- S% l' ]5 l
从这个公式可以知道,X的熵减去X和Y的互信息之后,可以得到在Y给定的情况下X的熵。 四.总结 % |8 _" b {% D6 y
" S0 l) w: q' a4 M+ `
2 A0 R# m. u5 q! S! K6 C& Y
/ X& H7 o8 P$ n" t$ c5 {
|