|
机器学习笔记十:各种熵总结(二)二.相对熵 相对熵又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度(即KL散度)等。 ! i, u8 K9 d4 ]4 [6 ^
设p(x)和q(x)是取值的两个概率概率分布,则p对q的相对熵为: ![]()
- ` ^, s$ ~: `+ S* _# ^在一定程度上面,相对熵可以度量两个随机变量的距离。也常常用相对熵来度量两个随机变量的距离。当两个随机分布相同的时候,他们的相对熵为0,当两个随机分布的差别增大的时候,他们之间的相对熵也会增大。 $ R2 i- Z' |. X1 u/ U+ S
但是事实上面,他并不是一个真正的距离。因为相对熵是不具有对称性的,即一般来说 相对熵还有一个性质,就是不为负。3 R: T) N6 T0 y6 o4 B
![]()
5 k$ c9 i- A% G6 l, Z/ D0 i三.互信息
v M! ?, [+ R0 n$ O互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。 ; [* p8 f4 r3 R$ [, c$ C8 B
两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。 ! l9 L z) \# V3 G* ^
![]()
9 b2 |7 f3 _+ c' Z+ t& r. s0 Y2 B' W# u0 O; t4 X5 ]: M& v0 r& x
那么互信息有什么更加深层次的含义呢?首先计算一个式子先:
6 z1 @# j6 y2 z0 n: O![]()
' F; f; E) [* D2 m从这个公式可以知道,X的熵减去X和Y的互信息之后,可以得到在Y给定的情况下X的熵。 四.总结 3 V1 g! X# Q: ]/ L& Q
. }* U8 {* A( `& H# d. e; E0 ~ k
6 j1 a$ A3 C1 l
) w( F" @& b' G5 ?7 Z- {; W9 N
|