|
机器学习笔记十:各种熵总结(二)二.相对熵 相对熵又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度(即KL散度)等。
' S# ]: f5 P: B) a, W" _; r4 o3 \( X, B设p(x)和q(x)是取值的两个概率概率分布,则p对q的相对熵为: ![]()
9 \/ b4 L# m! }; q# _在一定程度上面,相对熵可以度量两个随机变量的距离。也常常用相对熵来度量两个随机变量的距离。当两个随机分布相同的时候,他们的相对熵为0,当两个随机分布的差别增大的时候,他们之间的相对熵也会增大。 : i# S4 R( q O) c X% @
但是事实上面,他并不是一个真正的距离。因为相对熵是不具有对称性的,即一般来说 相对熵还有一个性质,就是不为负。
: \% i6 D# y5 C) F/ b 5 _1 F7 B$ ^/ @; m4 V$ n( L
三.互信息3 X& j- x9 g4 I: r! P v7 d" a
互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。
2 ~3 u% ~* n! k两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。 , L- Z! P7 a/ x0 l9 Y" a
! M+ w2 w, Q" B2 s5 f
! W' I i+ O1 x- j3 ?
那么互信息有什么更加深层次的含义呢?首先计算一个式子先:
" b* a! k" H% s. ?![]()
) ~4 g4 B" q7 @- ?( s" x% ?, |从这个公式可以知道,X的熵减去X和Y的互信息之后,可以得到在Y给定的情况下X的熵。 四.总结 , ?% k( i# l8 G- S, \' W' H' Q
( j" K( `; v7 T" j9 O
8 k i( S( H* S0 C7 @
& q/ X4 N( ?& w2 J, W& W6 a |