|
机器学习笔记十:各种熵总结(二)二.相对熵 相对熵又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度(即KL散度)等。 " c" Q& ?0 d3 M( D3 `( ]
设p(x)和q(x)是取值的两个概率概率分布,则p对q的相对熵为: " P& W% i* C {* \% B1 g9 B- C
在一定程度上面,相对熵可以度量两个随机变量的距离。也常常用相对熵来度量两个随机变量的距离。当两个随机分布相同的时候,他们的相对熵为0,当两个随机分布的差别增大的时候,他们之间的相对熵也会增大。 A, f! R. Q4 k. U
但是事实上面,他并不是一个真正的距离。因为相对熵是不具有对称性的,即一般来说 相对熵还有一个性质,就是不为负。0 J% W9 ^7 U6 R0 I$ d& c; A
![]()
9 B* O! d( O, L @9 A+ X/ |三.互信息 E5 X7 g$ L; `$ w9 v
互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。 4 W- A+ P5 d# q/ T, @
两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。 $ E* V% X8 u( N
![]()
. V k g& ] d; Y+ {( p
* \: |! w& U1 ^那么互信息有什么更加深层次的含义呢?首先计算一个式子先: 4 A4 L9 @' f% q* I
![]()
5 l" K8 M& b& @ x从这个公式可以知道,X的熵减去X和Y的互信息之后,可以得到在Y给定的情况下X的熵。 四.总结![]()
$ ]; i. [: h, H" p9 o9 t- A7 L
4 h. ?2 M- @% v9 \
3 O p- N" s6 `1 t3 N' t+ c |