|
机器学习笔记十:各种熵总结(二)二.相对熵 相对熵又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度(即KL散度)等。
, v! {! U5 V" ?1 H5 r设p(x)和q(x)是取值的两个概率概率分布,则p对q的相对熵为: * _9 v+ S( u0 W8 K) k
在一定程度上面,相对熵可以度量两个随机变量的距离。也常常用相对熵来度量两个随机变量的距离。当两个随机分布相同的时候,他们的相对熵为0,当两个随机分布的差别增大的时候,他们之间的相对熵也会增大。
! v* \* |6 L& p0 _' h$ F但是事实上面,他并不是一个真正的距离。因为相对熵是不具有对称性的,即一般来说 相对熵还有一个性质,就是不为负。
) V" b8 X- d5 z5 c4 U7 r9 `( `![]()
6 k9 k' L8 K1 J三.互信息
" K7 i+ G# A9 Q& q+ l. s' `5 ^互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。 . u% t" Z( _% e" q# E
两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。 & k |6 e1 U S* ^- c
" f2 l4 p5 Z! C6 E" m, l
& \2 i- l |% r A
那么互信息有什么更加深层次的含义呢?首先计算一个式子先: 3 u) o* s* \8 \2 U7 v, F
" D; I) _7 ]. t4 O9 Y: M
从这个公式可以知道,X的熵减去X和Y的互信息之后,可以得到在Y给定的情况下X的熵。 四.总结![]()
@ y0 _) z& l# A! U. O5 W) Z: }9 F7 }# \
" B5 \- ? c+ a2 T) L) V# K, k8 u
7 J/ j* U7 n' S9 O' ?
|