- 在线时间
- 538 小时
- 最后登录
- 2023-6-27
- 注册时间
- 2015-11-2
- 听众数
- 29
- 收听数
- 1
- 能力
- 0 分
- 体力
- 21642 点
- 威望
- 0 点
- 阅读权限
- 60
- 积分
- 6868
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 749
- 主题
- 600
- 精华
- 0
- 分享
- 0
- 好友
- 10
TA的每日心情 | 奋斗 2023-5-24 09:14 |
|---|
签到天数: 119 天 [LV.6]常住居民II
 群组: 2018高中组美赛 课堂 群组: 2018国赛冲刺 群组: 2018 夏令营面授课堂 群组: 2016美赛交流群组 |
机器学习笔记十:各种熵总结(一)3 `$ L( i+ S* _
一.什么是熵
7 t6 o1 E1 k6 z* q8 rⅠ.信息量
8 _ S) n7 R0 Y: |, T首先考虑一个离散的随机变量x,当我们观察到这个变量的一个具体值的时候,我们接收到多少信息呢?
! t4 l; E. p+ l/ [& N% |我们暂时把信息看做在学习x的值时候的”惊讶程度”(这样非常便于理解且有意义).当我们知道一件必然会发生的事情发生了,比如往下掉的苹果.我们并不惊讶,因为反正这件事情会发生,因此可以认为我们没有接收到信息.但是要是一件平时觉得不可能发生的事情发生了,那么我们接收到的信息要大得多.因此,我们对于信息内容的度量就将依赖于概率分布p(x).
* Z% W) Q* [" R# W7 m因此,我们想要寻找一个函数h(x)来表示信息的多少且是关于概率分布的单调函数.我们定义: + I1 q0 W6 Z0 p; h- L' B
![]()
" ^7 D3 v+ D5 i8 s3 h3 B. d l( Z* ?1 _, P& B+ e1 I j
我们把这个公式叫做信息量的公式,前面的负号确保了信息一定是正数或者是0.(低概率事件带来高的信息量). 4 O( O, ~* ^4 L$ ]
函数如下图所示 6 U1 p R: k3 b* Z- i. }+ Y
![]()
7 u7 j; v( b' r- x& B2 f3 p有时候有人也叫做自信息(self-information),一个意思啦。可以推广一下下。 # E0 S K; i$ p+ W, @8 z
联合自信息量: ![]()
7 S& i2 r9 w0 D5 M' s条件自信息量: " J7 M7 N2 t" I6 }4 W
通俗一点来说的话,就是概率论中很简单的推广就行了。有概率基础的话,这个很容易理解。这里因为实际上面使用二维的更多一点就以二维为例子,推广到多维的话也是可以的。
2 A9 A5 }6 x. V9 j1 z9 L
7 \0 |( s% X; z, N% e1 K, ^Ⅱ.熵* r' j" [" g$ k' T5 N$ L5 p
熵(entropy):上面的Ⅰ(x)是指在某个概率分布之下,某个概率值对应的信息量的公式.那么我们要知道这整个概率分布对应的信息量的平均值.这个平均值就叫做随机变量x的熵 : n+ u" h0 e1 w4 j, m6 L3 k8 R
如下面公式:
* p/ w. N! q2 a, L3 l& D 8 w' n; y- i% Y8 s+ j( G' O
这个公式的意思就是,随机变量x是服从p这个分布的,也就是在在p分布下面的平均自信息。也就得到了信息熵。信息熵的本质可以看做是某个分布的自信息的期望。0 L5 M* q$ I& G) M
这里举个例子感受一下:设X服从0-1分布,即 6 }" @6 j2 m8 Y$ n; A) `3 P8 @+ s
则熵为: : Y q" q; Q# G& l% \6 ~
上面的计算是对于一个离散型的随机变量(分布)来做的,无非就是把所有的概率都得到,分别求出自信息然后相加就行了。很简单,别想得太多。 6 O7 U3 w' x8 m- _7 t# j1 P
代码:![]()
% k6 M4 L/ n' p+ `! f+ |, ^* u0 B结果为:3 u, |6 v& Q5 I6 W" L5 l8 C
k) t1 u# y" {3 W" |8 \3 \
从图中可以知道: 1.当p=0或者p=1的时候,随机变量可以认为是没有不确定性. 8 X7 o4 Y. ^( q' D1 G5 c1 O& H
2.当p=0.5的时候,H(p)=1,随机变量的不确定性最大.
- a: P4 h& \2 |, F& O那么“仿照”之前的信息量的公式,可以推广一下下啦。
! q7 u# j9 h2 z* O- C0 c假设一个概率分布有两个随机变量决定。其中x有n种取值,y有m种取值。那么可以得到一个nxm的联合概率分布的表。那么有: . x+ N4 z( o5 U+ Q7 Q s
复合熵(联合熵): 6 {. ^: C+ T6 t& F6 x
同样,复合熵的公式还可以推广到连续变量和多个变量的情况。这里就不写了。 条件熵:![]()
: D- T; r1 S# T" q9 {, d2 F) e
* e* g Y7 g" m# S6 |8 D3 s& K5 I上面这个公式可能有点难以理解,不知道这个公式是怎么来的。举一个例子来说明一下: ' n5 F. G) R+ H% E+ _3 N0 d
如果以x表示学生体重,以y表示身高,以 p(x∣y)表示身高为某个特定的y时的体重为x的概率,把熵公式用到这个特殊情况得到是熵显然应当是 ![]()
* \$ \/ v( H: W! Z上面得到的计算公式是针对y为一个特殊值y时求得的熵。考虑到y会出现各种可能值,如果问已知学生身高时(不特指某一身高,而是泛指身高已经知道)的体重的熵(不确定程度),它应当是把前面的公式依各种y的出现概率做加权平均,那么就可以得到上面的条件熵的公式。
h5 V( w. I# h J/ r4 `1 Z3 c" M G6 m+ y" X2 s) D
Ⅲ.变形总结, y0 B) t, g' a( t" r
进过上面的之后,应该对于信息量和信息熵的几个公式有了了解。然后那几个公式还可以变形为一些常用的公式。这里总结一下
% p0 [3 J0 {2 X7 J首先要先介绍一下条件分布的乘法定理:
5 u4 O+ x6 {1 ?2 i. F3 d / y) r* C" W" i. B
1 x5 R _/ e( L6 n" j4 d然后把之前条件熵式子使用上面这个公式改写一下,可以写为:3 ?2 ~6 N$ v6 d! d0 z0 d- J
9 O' r& A2 z9 Q; W) x0 O2 T
当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到的时候,所对应的熵与条件熵分别称为经验熵(empirical entropy)和经验条件熵(empirical conditional entropy)
! M- e* T2 |0 E# K! H$ p; c- _6 ~
' d+ {7 T; w9 q+ M8 r& v上面的式子表明,只要你能够得到联合分布和y的分布就能够求出条件熵了。事实上,还能够更加简化成为常见的形式:
5 G( b( j" Z0 p, J- N b* k5 K这里利用上面的公式(以离散型为例子)直接推导,有
$ f4 a8 \% V0 M2 [: t! i![]()
% `- u8 W9 `+ d1 f6 f& P9 _5 `# p: h4 `. @
证明: ( f. r6 h* f7 ^. [# }
这个公式把复合熵、条件熵以及熵联系到一起了。它们也显示了熵的对称性。
: U. [2 m/ f0 }2 M h2 i# @
! d G4 X6 Z7 I+ N, [, [. Y |
zan
|