|
机器学习笔记十:各种熵总结(二)二.相对熵 相对熵又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度(即KL散度)等。 / z% D% `( O- m# _2 k
设p(x)和q(x)是取值的两个概率概率分布,则p对q的相对熵为: ![]()
, f8 M3 z& P+ U9 j% i* \在一定程度上面,相对熵可以度量两个随机变量的距离。也常常用相对熵来度量两个随机变量的距离。当两个随机分布相同的时候,他们的相对熵为0,当两个随机分布的差别增大的时候,他们之间的相对熵也会增大。 , f5 D8 @- D/ L% U$ _+ @! {: K
但是事实上面,他并不是一个真正的距离。因为相对熵是不具有对称性的,即一般来说 相对熵还有一个性质,就是不为负。# P- ]8 g6 g8 }+ Y+ @
![]()
. w+ c3 \. \- h& l- N三.互信息+ e1 K @( X/ {% ?
互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。 ! B) \( T$ j+ r4 ~
两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。
3 C7 o& A4 N- ~: M. q# X# T! H 6 ?! i+ M4 F0 }# L
, j- A) B! H; [% v+ K那么互信息有什么更加深层次的含义呢?首先计算一个式子先: + V1 u% }* R$ w a' R& l% g9 L( a, m+ o
![]()
. u. N! d' K9 K( E从这个公式可以知道,X的熵减去X和Y的互信息之后,可以得到在Y给定的情况下X的熵。 四.总结![]()
0 f& G; X( Z* |: J8 u9 C& Y7 @. @* N- q8 H* \0 H
% ~' N0 }+ L Q3 @9 P8 _# B* {5 U8 {+ P4 J' E1 v" ?
|