- 在线时间
- 538 小时
- 最后登录
- 2023-6-27
- 注册时间
- 2015-11-2
- 听众数
- 29
- 收听数
- 1
- 能力
- 0 分
- 体力
- 21622 点
- 威望
- 0 点
- 阅读权限
- 60
- 积分
- 6862
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 749
- 主题
- 600
- 精华
- 0
- 分享
- 0
- 好友
- 10
TA的每日心情 | 奋斗 2023-5-24 09:14 |
|---|
签到天数: 119 天 [LV.6]常住居民II
 群组: 2018高中组美赛 课堂 群组: 2018国赛冲刺 群组: 2018 夏令营面授课堂 群组: 2016美赛交流群组 |
机器学习笔记十:各种熵总结(一)) T( H8 c/ i; S, t V6 B
一.什么是熵
( o4 b. Y% `& V& v2 U7 c) B8 E, XⅠ.信息量
: e* b' v# W- O' N+ ]首先考虑一个离散的随机变量x,当我们观察到这个变量的一个具体值的时候,我们接收到多少信息呢? 7 ?$ k. W" Z4 D& k& M3 t& I
我们暂时把信息看做在学习x的值时候的”惊讶程度”(这样非常便于理解且有意义).当我们知道一件必然会发生的事情发生了,比如往下掉的苹果.我们并不惊讶,因为反正这件事情会发生,因此可以认为我们没有接收到信息.但是要是一件平时觉得不可能发生的事情发生了,那么我们接收到的信息要大得多.因此,我们对于信息内容的度量就将依赖于概率分布p(x).
( a) w4 _: S6 l. `$ e6 T因此,我们想要寻找一个函数h(x)来表示信息的多少且是关于概率分布的单调函数.我们定义: : E. p1 \: j, \0 ]# d
![]()
! Y) I& |; H# G$ b# \# w5 i: ^6 {& O0 C* d4 R: g0 J: b
我们把这个公式叫做信息量的公式,前面的负号确保了信息一定是正数或者是0.(低概率事件带来高的信息量). 5 d2 d) J! J2 L. {$ h
函数如下图所示
. ^ j' c8 l6 x7 h9 g) a I, d8 i4 ?+ c- P" z7 X
有时候有人也叫做自信息(self-information),一个意思啦。可以推广一下下。
5 [2 z) E# ^! o. E, w) C% e联合自信息量: ![]()
) ~# L" w: d/ i/ K+ e/ d. ~% [条件自信息量: ! P2 B. L# _: _! S" V
通俗一点来说的话,就是概率论中很简单的推广就行了。有概率基础的话,这个很容易理解。这里因为实际上面使用二维的更多一点就以二维为例子,推广到多维的话也是可以的。/ {% r. Z" D2 |: V; t7 u2 U2 @
" Z+ {* l: n4 D- D
Ⅱ.熵
" I* E6 R$ [/ r% I, w0 ^# G. F7 ], r熵(entropy):上面的Ⅰ(x)是指在某个概率分布之下,某个概率值对应的信息量的公式.那么我们要知道这整个概率分布对应的信息量的平均值.这个平均值就叫做随机变量x的熵
1 W2 T' S. p2 B) L) Z如下面公式: 4 m+ V' N* _0 c* Z4 v s) H
![]()
# d0 A5 I k# s+ B; J$ {这个公式的意思就是,随机变量x是服从p这个分布的,也就是在在p分布下面的平均自信息。也就得到了信息熵。信息熵的本质可以看做是某个分布的自信息的期望。$ _( {8 U$ a- N0 ]
这里举个例子感受一下:设X服从0-1分布,即 1 C0 j' j4 g. B4 L! C6 _
则熵为:![]()
" B/ \) e Q# X$ }8 p$ C上面的计算是对于一个离散型的随机变量(分布)来做的,无非就是把所有的概率都得到,分别求出自信息然后相加就行了。很简单,别想得太多。 , z( D) M0 q5 O! L9 `1 r
代码: + ~# n8 j# Q' v1 }1 F" n4 O
结果为: p; c; R- p6 [0 V' p
' u4 L% N: X5 ^- X
从图中可以知道: 1.当p=0或者p=1的时候,随机变量可以认为是没有不确定性. . S. t1 c. J7 v! ~3 g% m
2.当p=0.5的时候,H(p)=1,随机变量的不确定性最大.$ H; t; K3 B8 v) I
那么“仿照”之前的信息量的公式,可以推广一下下啦。 8 `7 D- w( g1 l+ V( w" r; q
假设一个概率分布有两个随机变量决定。其中x有n种取值,y有m种取值。那么可以得到一个nxm的联合概率分布的表。那么有: ) S6 P; A! q: \0 r9 Y
复合熵(联合熵):![]()
, d( P" r, S: [( K5 H同样,复合熵的公式还可以推广到连续变量和多个变量的情况。这里就不写了。 条件熵:![]()
1 Y' G, n, h4 b( q8 k) Y3 n/ T0 h9 X& s' N* t
上面这个公式可能有点难以理解,不知道这个公式是怎么来的。举一个例子来说明一下: ; S2 |/ E3 H5 P4 @/ }9 S" h
如果以x表示学生体重,以y表示身高,以 p(x∣y)表示身高为某个特定的y时的体重为x的概率,把熵公式用到这个特殊情况得到是熵显然应当是 8 _ k% \6 X; y
上面得到的计算公式是针对y为一个特殊值y时求得的熵。考虑到y会出现各种可能值,如果问已知学生身高时(不特指某一身高,而是泛指身高已经知道)的体重的熵(不确定程度),它应当是把前面的公式依各种y的出现概率做加权平均,那么就可以得到上面的条件熵的公式。
9 L( e9 V7 V. i& _. A: d8 R7 c4 e3 h4 T/ E
Ⅲ.变形总结+ {# b- J. y9 y% D
进过上面的之后,应该对于信息量和信息熵的几个公式有了了解。然后那几个公式还可以变形为一些常用的公式。这里总结一下 + V. Z+ k9 u, t5 V6 m* _
首先要先介绍一下条件分布的乘法定理:
+ s7 y" W5 O) `: }1 G, S( ]4 p![]()
1 }; z0 l# m6 d9 y7 `; S" j( J2 }# r; t& F1 T
然后把之前条件熵式子使用上面这个公式改写一下,可以写为:: O4 e7 F) s2 V9 g) s# G
6 ], @. A5 i# J% v* z% A% Z& q
当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到的时候,所对应的熵与条件熵分别称为经验熵(empirical entropy)和经验条件熵(empirical conditional entropy)
) n% S+ A% C3 v# Q( T; v% h0 y$ h: o$ Z2 _% d
上面的式子表明,只要你能够得到联合分布和y的分布就能够求出条件熵了。事实上,还能够更加简化成为常见的形式:
# [# x: ^& S" l7 x( M- ~0 K这里利用上面的公式(以离散型为例子)直接推导,有
( G% x4 ~7 B4 n- d. j2 } " K' h8 {* K( `& G" }2 C% X+ S J) ^
: h6 N* I4 H* \2 M3 K) `证明: ![]()
/ v, S; h( H1 O6 E这个公式把复合熵、条件熵以及熵联系到一起了。它们也显示了熵的对称性。
1 H* V" J, v' @( q. |6 p" E" Z. q1 L
" A/ g6 r l7 R1 K# B9 I; L8 v, V |
zan
|