- 在线时间
- 538 小时
- 最后登录
- 2023-6-27
- 注册时间
- 2015-11-2
- 听众数
- 29
- 收听数
- 1
- 能力
- 0 分
- 体力
- 21642 点
- 威望
- 0 点
- 阅读权限
- 60
- 积分
- 6868
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 749
- 主题
- 600
- 精华
- 0
- 分享
- 0
- 好友
- 10
TA的每日心情 | 奋斗 2023-5-24 09:14 |
|---|
签到天数: 119 天 [LV.6]常住居民II
 群组: 2018高中组美赛 课堂 群组: 2018国赛冲刺 群组: 2018 夏令营面授课堂 群组: 2016美赛交流群组 |
机器学习笔记十:各种熵总结(一)9 u9 M/ c+ {, k0 |6 C; f- d% B
一.什么是熵
1 h! p( M5 m% Y+ q# ZⅠ.信息量/ G6 D5 K: T3 t* f1 J/ V
首先考虑一个离散的随机变量x,当我们观察到这个变量的一个具体值的时候,我们接收到多少信息呢?
3 P/ z. H. j$ j! ^- k! _我们暂时把信息看做在学习x的值时候的”惊讶程度”(这样非常便于理解且有意义).当我们知道一件必然会发生的事情发生了,比如往下掉的苹果.我们并不惊讶,因为反正这件事情会发生,因此可以认为我们没有接收到信息.但是要是一件平时觉得不可能发生的事情发生了,那么我们接收到的信息要大得多.因此,我们对于信息内容的度量就将依赖于概率分布p(x).
2 c, B6 L- G# s$ C3 Z! s: |因此,我们想要寻找一个函数h(x)来表示信息的多少且是关于概率分布的单调函数.我们定义: " a" e( Q1 }+ n2 w3 A
![]()
* w% A6 T5 m# a8 j9 A7 `# [
: b% k1 |# ]/ ~9 v& {$ x9 S% V4 j我们把这个公式叫做信息量的公式,前面的负号确保了信息一定是正数或者是0.(低概率事件带来高的信息量).
; x' K% B3 y# w( p7 n6 J! a; R/ S! F函数如下图所示 6 [ l6 h0 i8 C! x4 O
2 c+ x+ E1 c" R1 b
有时候有人也叫做自信息(self-information),一个意思啦。可以推广一下下。 5 w. C0 ^- M2 K5 j4 i
联合自信息量: ![]()
1 e& x7 [: y% B条件自信息量: 9 ?1 D3 w; C( T# n% j# `& C
通俗一点来说的话,就是概率论中很简单的推广就行了。有概率基础的话,这个很容易理解。这里因为实际上面使用二维的更多一点就以二维为例子,推广到多维的话也是可以的。4 _% _; y. M {7 H; G& C. |! X
+ `$ Z( i# ]. \
Ⅱ.熵! ~8 Z, M! E* e' ]1 I/ l9 B+ Z
熵(entropy):上面的Ⅰ(x)是指在某个概率分布之下,某个概率值对应的信息量的公式.那么我们要知道这整个概率分布对应的信息量的平均值.这个平均值就叫做随机变量x的熵 4 G% T' z: l; W$ M, y d
如下面公式:
/ b# c' z) t$ D) Y![]()
% z- G9 G5 a0 F这个公式的意思就是,随机变量x是服从p这个分布的,也就是在在p分布下面的平均自信息。也就得到了信息熵。信息熵的本质可以看做是某个分布的自信息的期望。
3 _+ y8 b4 |* v& _# @; `0 y这里举个例子感受一下:设X服从0-1分布,即 ![]()
+ Y; j+ c* s2 n) ]- X则熵为: " V |! L' H+ U7 R. A3 H n
上面的计算是对于一个离散型的随机变量(分布)来做的,无非就是把所有的概率都得到,分别求出自信息然后相加就行了。很简单,别想得太多。
k& G& g) |4 u/ z. ?( j" ~代码: $ N3 T; }* I2 K" A, z
结果为:
0 i0 n3 i) s4 U; v% |& \% x g 9 g) \, q3 {1 D5 Q3 f/ n. K1 e& _
从图中可以知道: 1.当p=0或者p=1的时候,随机变量可以认为是没有不确定性.
, j6 c2 W# H! R" u2 e& B% z# A# m2.当p=0.5的时候,H(p)=1,随机变量的不确定性最大.0 C/ z( u( B2 t. J7 C/ `/ U3 S+ F
那么“仿照”之前的信息量的公式,可以推广一下下啦。
. a, z* n$ A0 D8 y假设一个概率分布有两个随机变量决定。其中x有n种取值,y有m种取值。那么可以得到一个nxm的联合概率分布的表。那么有:
7 C7 x7 v, O6 T* k复合熵(联合熵):![]()
( `- r5 Y6 l, V3 r5 ?! L同样,复合熵的公式还可以推广到连续变量和多个变量的情况。这里就不写了。 条件熵:![]()
; ~7 o$ w- z9 c/ c* N/ V
9 ^( V8 p8 X" r5 z& c9 `上面这个公式可能有点难以理解,不知道这个公式是怎么来的。举一个例子来说明一下:
) `9 N& o) L5 ]4 q如果以x表示学生体重,以y表示身高,以 p(x∣y)表示身高为某个特定的y时的体重为x的概率,把熵公式用到这个特殊情况得到是熵显然应当是 ![]()
8 @* J. K( Q2 s" Z9 y; r. s8 z上面得到的计算公式是针对y为一个特殊值y时求得的熵。考虑到y会出现各种可能值,如果问已知学生身高时(不特指某一身高,而是泛指身高已经知道)的体重的熵(不确定程度),它应当是把前面的公式依各种y的出现概率做加权平均,那么就可以得到上面的条件熵的公式。
5 L" g% f5 S! u$ q
: G# k3 ?1 l( OⅢ.变形总结
' d: P% F2 H5 A& u进过上面的之后,应该对于信息量和信息熵的几个公式有了了解。然后那几个公式还可以变形为一些常用的公式。这里总结一下
* D& U# [ K W! h0 E+ ?! E首先要先介绍一下条件分布的乘法定理:: V5 U; g1 F- u4 e
![]()
' ?. w* P/ `( d$ E# l, @1 ^3 R/ p/ G
然后把之前条件熵式子使用上面这个公式改写一下,可以写为:
' C. t1 _2 S8 _# g! e% x$ }1 R![]()
( S% `& j: M3 w9 s1 J当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到的时候,所对应的熵与条件熵分别称为经验熵(empirical entropy)和经验条件熵(empirical conditional entropy): a( J- M1 {0 ~5 I) g$ T* y
* C5 P2 x2 k- x$ F# E上面的式子表明,只要你能够得到联合分布和y的分布就能够求出条件熵了。事实上,还能够更加简化成为常见的形式:
! v* w, `# ~ B7 f% i% ]这里利用上面的公式(以离散型为例子)直接推导,有
$ J4 i! n$ }) y& o: C$ G( d: G( V![]()
, m+ z# | d& S& O# E7 z% ~$ s- n/ O% A+ y m
证明: ![]()
& m" m" x! A: I/ K1 i3 W4 b这个公式把复合熵、条件熵以及熵联系到一起了。它们也显示了熵的对称性。( e2 q: E0 g# N% r, |: S
! O6 R- l7 l% Z) _. u- c/ H5 r
|
zan
|