- 在线时间
- 538 小时
- 最后登录
- 2023-6-27
- 注册时间
- 2015-11-2
- 听众数
- 29
- 收听数
- 1
- 能力
- 0 分
- 体力
- 21643 点
- 威望
- 0 点
- 阅读权限
- 60
- 积分
- 6868
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 749
- 主题
- 600
- 精华
- 0
- 分享
- 0
- 好友
- 10
TA的每日心情 | 奋斗 2023-5-24 09:14 |
|---|
签到天数: 119 天 [LV.6]常住居民II
 群组: 2018高中组美赛 课堂 群组: 2018国赛冲刺 群组: 2018 夏令营面授课堂 群组: 2016美赛交流群组 |
机器学习笔记十:各种熵总结(一)
% a0 X& e" Y9 V7 |一.什么是熵* n# H7 ?5 ~/ f" F3 S! b: m$ Z
Ⅰ.信息量* D7 ^- z6 I9 N# Z& b) I
首先考虑一个离散的随机变量x,当我们观察到这个变量的一个具体值的时候,我们接收到多少信息呢? - z5 G# v4 F# Q0 I( G5 x( Z
我们暂时把信息看做在学习x的值时候的”惊讶程度”(这样非常便于理解且有意义).当我们知道一件必然会发生的事情发生了,比如往下掉的苹果.我们并不惊讶,因为反正这件事情会发生,因此可以认为我们没有接收到信息.但是要是一件平时觉得不可能发生的事情发生了,那么我们接收到的信息要大得多.因此,我们对于信息内容的度量就将依赖于概率分布p(x). * R) n. W1 b9 ~% W4 w# c$ {
因此,我们想要寻找一个函数h(x)来表示信息的多少且是关于概率分布的单调函数.我们定义:
- h& ~: s- O, \* w9 J![]()
% _' _ @( T8 K; M7 W2 ]1 ]8 Q Y2 W4 b/ \
我们把这个公式叫做信息量的公式,前面的负号确保了信息一定是正数或者是0.(低概率事件带来高的信息量). " C+ \, d3 g, B# c" i
函数如下图所示
9 g: T. Y1 `* K# N' x& B$ ]![]()
& F( K3 h2 \; r1 r: R& j4 N有时候有人也叫做自信息(self-information),一个意思啦。可以推广一下下。
( X8 O: F% B8 V- D' P8 S: z联合自信息量: ![]()
3 s- g4 N1 R% z( P- K5 X条件自信息量:![]()
% U( b% `. L6 ~8 B- t通俗一点来说的话,就是概率论中很简单的推广就行了。有概率基础的话,这个很容易理解。这里因为实际上面使用二维的更多一点就以二维为例子,推广到多维的话也是可以的。4 _$ Q) Z' V2 r( W, R
2 R. u- e6 c" Y6 O% T7 B( M9 u/ ~* DⅡ.熵
1 z! Y3 ]/ L& \6 ^1 r. |" r" X& T熵(entropy):上面的Ⅰ(x)是指在某个概率分布之下,某个概率值对应的信息量的公式.那么我们要知道这整个概率分布对应的信息量的平均值.这个平均值就叫做随机变量x的熵
! p6 H9 u0 u4 s: d如下面公式: 7 Z# n3 L7 ?" ^) U
( _5 W: ]9 [/ x: n6 g# H
这个公式的意思就是,随机变量x是服从p这个分布的,也就是在在p分布下面的平均自信息。也就得到了信息熵。信息熵的本质可以看做是某个分布的自信息的期望。
6 K$ L+ ~+ ]% @5 S4 g* f/ q这里举个例子感受一下:设X服从0-1分布,即 0 m" E0 z+ R5 Q1 p5 Q
则熵为: ) c, q/ m/ z$ r. B$ c0 }
上面的计算是对于一个离散型的随机变量(分布)来做的,无非就是把所有的概率都得到,分别求出自信息然后相加就行了。很简单,别想得太多。 ( J! C' C6 W! _& e9 G8 R
代码:![]()
6 S3 O4 G {0 W5 q$ [$ L6 Y# i结果为:0 ]/ A: Q2 ~5 g
2 @7 t9 D. }9 E
从图中可以知道: 1.当p=0或者p=1的时候,随机变量可以认为是没有不确定性. ' v1 k; w0 B; H& y$ ?
2.当p=0.5的时候,H(p)=1,随机变量的不确定性最大.
4 f! X3 Z) ?3 `9 x `那么“仿照”之前的信息量的公式,可以推广一下下啦。
6 m' [0 }1 \9 x$ @# K. Q# E7 e' N假设一个概率分布有两个随机变量决定。其中x有n种取值,y有m种取值。那么可以得到一个nxm的联合概率分布的表。那么有: 3 ]& ^+ u( b7 _( s( m0 V5 N3 D$ {
复合熵(联合熵):![]()
, q5 p2 Z7 Z6 a! z同样,复合熵的公式还可以推广到连续变量和多个变量的情况。这里就不写了。 条件熵:![]() + M9 ?5 i# F' `) ?. E5 L8 ]& s
$ L, H& A* s3 W1 p" t% o上面这个公式可能有点难以理解,不知道这个公式是怎么来的。举一个例子来说明一下: 7 O' ]- c+ Q8 k" O. L
如果以x表示学生体重,以y表示身高,以 p(x∣y)表示身高为某个特定的y时的体重为x的概率,把熵公式用到这个特殊情况得到是熵显然应当是 ![]()
9 G& U, M7 J8 ]. A; V3 @2 e上面得到的计算公式是针对y为一个特殊值y时求得的熵。考虑到y会出现各种可能值,如果问已知学生身高时(不特指某一身高,而是泛指身高已经知道)的体重的熵(不确定程度),它应当是把前面的公式依各种y的出现概率做加权平均,那么就可以得到上面的条件熵的公式。% n, W( M- E: W" a- [
- X ~1 }& j4 C7 X$ p
Ⅲ.变形总结5 C4 M K" D) r# F3 r5 C* U
进过上面的之后,应该对于信息量和信息熵的几个公式有了了解。然后那几个公式还可以变形为一些常用的公式。这里总结一下
3 G4 E/ I" g1 q首先要先介绍一下条件分布的乘法定理:
9 ?' k" w0 c! [ `9 A; |5 W![]()
' A( v4 q' G5 I) W. C
9 a% W. z5 i ]* H: C, @9 x然后把之前条件熵式子使用上面这个公式改写一下,可以写为:
B8 d" ?, H% u' O# U8 s5 x& r6 Z![]()
7 }2 a5 j, A0 Y4 }; O) T当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到的时候,所对应的熵与条件熵分别称为经验熵(empirical entropy)和经验条件熵(empirical conditional entropy)
; d% ]1 R5 C! T% I2 T; Q2 i- Q/ o9 X7 c# p1 e; N$ ~0 a1 S, ~6 @
上面的式子表明,只要你能够得到联合分布和y的分布就能够求出条件熵了。事实上,还能够更加简化成为常见的形式: " o* r8 [7 t" {, ]: a/ w& @4 Z
这里利用上面的公式(以离散型为例子)直接推导,有
; C/ V; F/ \& H: @0 |3 i% ^ T 1 n3 u* S) J1 b( T
. O* R0 _: g% O* r9 Q. l7 p4 Z证明: ![]()
0 N# A. g0 l; f$ ^# E这个公式把复合熵、条件熵以及熵联系到一起了。它们也显示了熵的对称性。0 ^5 b( {' V. n( Z& c
% |7 L! j- [% ?+ j( ^( @* E; n
|
zan
|