- 在线时间
- 538 小时
- 最后登录
- 2023-6-27
- 注册时间
- 2015-11-2
- 听众数
- 29
- 收听数
- 1
- 能力
- 0 分
- 体力
- 21621 点
- 威望
- 0 点
- 阅读权限
- 60
- 积分
- 6862
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 749
- 主题
- 600
- 精华
- 0
- 分享
- 0
- 好友
- 10
TA的每日心情 | 奋斗 2023-5-24 09:14 |
|---|
签到天数: 119 天 [LV.6]常住居民II
 群组: 2018高中组美赛 课堂 群组: 2018国赛冲刺 群组: 2018 夏令营面授课堂 群组: 2016美赛交流群组 |
机器学习笔记十:各种熵总结(一)
- E5 G5 X; [/ S/ I8 l' N+ P! Y# R一.什么是熵
: w4 B% c- W7 U- ZⅠ.信息量 t+ C7 X' M8 w7 ?0 _
首先考虑一个离散的随机变量x,当我们观察到这个变量的一个具体值的时候,我们接收到多少信息呢?
# }' {# V/ f" f1 }" m1 p3 h我们暂时把信息看做在学习x的值时候的”惊讶程度”(这样非常便于理解且有意义).当我们知道一件必然会发生的事情发生了,比如往下掉的苹果.我们并不惊讶,因为反正这件事情会发生,因此可以认为我们没有接收到信息.但是要是一件平时觉得不可能发生的事情发生了,那么我们接收到的信息要大得多.因此,我们对于信息内容的度量就将依赖于概率分布p(x). 7 P( O3 N4 ^( S: w2 m! i
因此,我们想要寻找一个函数h(x)来表示信息的多少且是关于概率分布的单调函数.我们定义:
4 Z& j5 e- B" `- ~9 B1 z% _, _( ~, [ 8 p x( [3 S. q0 o
8 z! p5 I. u, a/ U2 y0 Y
我们把这个公式叫做信息量的公式,前面的负号确保了信息一定是正数或者是0.(低概率事件带来高的信息量). ! p$ v" I% N; N c+ t; j
函数如下图所示
6 ^% z2 ]3 S0 f" @9 y9 i![]()
& }( b' A( A$ |# z7 K4 D有时候有人也叫做自信息(self-information),一个意思啦。可以推广一下下。
& V! _3 d/ N, G) `# @联合自信息量: ![]()
' a8 }7 W6 g3 }0 o1 E条件自信息量: # N3 c0 X# F$ M
通俗一点来说的话,就是概率论中很简单的推广就行了。有概率基础的话,这个很容易理解。这里因为实际上面使用二维的更多一点就以二维为例子,推广到多维的话也是可以的。
# E7 c' x8 h3 ?6 k! \
, P) h! m- E2 j; i: l# MⅡ.熵
. \1 @9 c% e1 z8 F6 R& ]8 X' _熵(entropy):上面的Ⅰ(x)是指在某个概率分布之下,某个概率值对应的信息量的公式.那么我们要知道这整个概率分布对应的信息量的平均值.这个平均值就叫做随机变量x的熵 ( O# J) T* [0 K! J" B& x' |, h
如下面公式:
3 p4 z( p! }& Y7 P8 t1 v![]()
: m# I" r1 w+ N5 i# Y9 b这个公式的意思就是,随机变量x是服从p这个分布的,也就是在在p分布下面的平均自信息。也就得到了信息熵。信息熵的本质可以看做是某个分布的自信息的期望。
* a1 \3 a7 i" ?这里举个例子感受一下:设X服从0-1分布,即 ' v8 ]4 G1 a" M7 K/ Q3 ?5 Y
则熵为:![]()
. |0 B. c& k- e9 D3 k3 f$ M* \上面的计算是对于一个离散型的随机变量(分布)来做的,无非就是把所有的概率都得到,分别求出自信息然后相加就行了。很简单,别想得太多。 - v. I1 w1 d% _2 i
代码: * k9 I: j6 K, ?0 Q" @/ w
结果为:
' [+ b& y+ G( [2 \5 V% f( b* I![]()
! y/ F+ O' h) M' u( j0 |* M! B从图中可以知道: 1.当p=0或者p=1的时候,随机变量可以认为是没有不确定性.
8 D8 k& q1 s0 ]* u% m# ^" x2.当p=0.5的时候,H(p)=1,随机变量的不确定性最大.9 Q1 u& {) Q6 ^5 P2 P
那么“仿照”之前的信息量的公式,可以推广一下下啦。 V" ?% p+ J+ V8 C
假设一个概率分布有两个随机变量决定。其中x有n种取值,y有m种取值。那么可以得到一个nxm的联合概率分布的表。那么有: - ?/ d ]' t& [" k( O4 [# m
复合熵(联合熵):![]()
5 K* ~ n, ~3 v& \5 Y( E同样,复合熵的公式还可以推广到连续变量和多个变量的情况。这里就不写了。 条件熵:![]() ( t( U- M' i6 R
" s3 U/ }) |0 n2 n) i) I
上面这个公式可能有点难以理解,不知道这个公式是怎么来的。举一个例子来说明一下: / Z& Z- k s8 J* I
如果以x表示学生体重,以y表示身高,以 p(x∣y)表示身高为某个特定的y时的体重为x的概率,把熵公式用到这个特殊情况得到是熵显然应当是 ![]()
. X: a" }; F5 Y6 b- K上面得到的计算公式是针对y为一个特殊值y时求得的熵。考虑到y会出现各种可能值,如果问已知学生身高时(不特指某一身高,而是泛指身高已经知道)的体重的熵(不确定程度),它应当是把前面的公式依各种y的出现概率做加权平均,那么就可以得到上面的条件熵的公式。2 O- S O( n! \, J3 N4 P$ T
* h# s: }; y' D/ B5 I
Ⅲ.变形总结! X; w! Y+ A x& B8 D
进过上面的之后,应该对于信息量和信息熵的几个公式有了了解。然后那几个公式还可以变形为一些常用的公式。这里总结一下 ) u+ W6 N# {( R# c( c- T9 O. X/ ~9 o" a9 ]
首先要先介绍一下条件分布的乘法定理:
h0 | A) I$ `$ x' O; p: `; J![]()
+ ~+ N: Y6 F6 y* i( s6 z! Q5 o' ?1 y9 U- k* P, G1 C
然后把之前条件熵式子使用上面这个公式改写一下,可以写为:
5 T- I0 N1 p2 v" K6 M ! R; ~% r- e3 J' L8 ?0 I
当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到的时候,所对应的熵与条件熵分别称为经验熵(empirical entropy)和经验条件熵(empirical conditional entropy)/ B/ j6 T* g# ~. P' H
+ @2 a$ X- ]+ W$ A5 y! z& T, }上面的式子表明,只要你能够得到联合分布和y的分布就能够求出条件熵了。事实上,还能够更加简化成为常见的形式:
7 N: H2 u r! z: m这里利用上面的公式(以离散型为例子)直接推导,有 " T, P# P# P+ E, T
![]()
5 J1 [* k. ~$ s1 M5 x( N& @; W- |9 ?* C: U! a
证明: ! j8 A1 c+ q) S9 D' ~! q4 K$ C! {# K
这个公式把复合熵、条件熵以及熵联系到一起了。它们也显示了熵的对称性。
9 p1 [8 R# h( Z: g
4 @; p. y% O+ b! Z' b3 m& f |
zan
|