QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2300|回复: 0
打印 上一主题 下一主题

机器学习笔记十:各种熵总结(一)

[复制链接]
字体大小: 正常 放大

600

主题

29

听众

6868

积分

  • TA的每日心情
    奋斗
    2023-5-24 09:14
  • 签到天数: 119 天

    [LV.6]常住居民II

    群组2018高中组美赛 课堂

    群组2018国赛冲刺

    群组2018 夏令营面授课堂

    群组2016美赛交流群组

    跳转到指定楼层
    1#
    发表于 2018-11-1 10:15 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    机器学习笔记十:各种熵总结(一)
    7 N  {- e; O! [! w$ Y8 U. N一.什么是熵
    3 `9 Y. N( N( q7 `Ⅰ.信息量
    9 B4 \- D- B, T9 a% j首先考虑一个离散的随机变量x,当我们观察到这个变量的一个具体值的时候,我们接收到多少信息呢? 3 ]" a( |" n1 V$ ^1 e+ t8 L
    我们暂时把信息看做在学习x的值时候的”惊讶程度”(这样非常便于理解且有意义).当我们知道一件必然会发生的事情发生了,比如往下掉的苹果.我们并不惊讶,因为反正这件事情会发生,因此可以认为我们没有接收到信息.但是要是一件平时觉得不可能发生的事情发生了,那么我们接收到的信息要大得多.因此,我们对于信息内容的度量就将依赖于概率分布p(x).
    % N& N3 x- B( X  o因此,我们想要寻找一个函数h(x)来表示信息的多少且是关于概率分布的单调函数.我们定义:
    ) f" k& Y- {/ ]
    # ?% e$ `0 h) r( {% j$ Q) c. s% W' i& {+ e6 F8 g
    我们把这个公式叫做信息量的公式,前面的负号确保了信息一定是正数或者是0.(低概率事件带来高的信息量).
    ! H, m/ M5 S0 R4 C% \3 M6 l/ S函数如下图所示
    + @; z! q1 l- `' M5 ?/ x7 G
    ( x- L5 M" y/ h7 l有时候有人也叫做自信息(self-information),一个意思啦。可以推广一下下。 9 T  F3 |2 w& ~' @3 G) s* `
    联合自信息量: $ L5 K* R# _+ Z& L3 N" `: O: z
    条件自信息量:
    , Z% w1 i  z# Z7 s4 f通俗一点来说的话,就是概率论中很简单的推广就行了。有概率基础的话,这个很容易理解。这里因为实际上面使用二维的更多一点就以二维为例子,推广到多维的话也是可以的。  i- N' I9 A& V3 H* ]
    . V; z( K; i7 n" ?; [# _
    Ⅱ.熵
    6 A1 Z( k' P( P  ~1 O4 _$ ?) [2 t; B- W熵(entropy):上面的Ⅰ(x)是指在某个概率分布之下,某个概率值对应的信息量的公式.那么我们要知道这整个概率分布对应的信息量的平均值.这个平均值就叫做随机变量x的熵 8 U- G! f, q8 p0 T% U' }6 l
    如下面公式:
    ( Y/ D% w4 Z: a2 |( d9 z( ]  ~7 M: p
    $ A5 N* W8 d1 A2 P这个公式的意思就是,随机变量x是服从p这个分布的,也就是在在p分布下面的平均自信息。也就得到了信息熵。信息熵的本质可以看做是某个分布的自信息的期望。
    & Z% m' C0 n0 M这里举个例子感受一下:设X服从0-1分布,即 8 l5 V& s# a* K' `7 }2 R- V
    则熵为:
    . e6 ?5 K& [. k上面的计算是对于一个离散型的随机变量(分布)来做的,无非就是把所有的概率都得到,分别求出自信息然后相加就行了。很简单,别想得太多。
    0 ]- [- V# i2 ?: x, Z代码:& M2 c# y! H1 W( z. Z) }
    结果为:. r7 y; a. l2 n/ m5 F, t: R, E5 h

    % |" S% R( [# T! n7 z

    从图中可以知道:

    1.当p=0或者p=1的时候,随机变量可以认为是没有不确定性.
    : w3 x: p5 U1 D" y  K, M2.当p=0.5的时候,H(p)=1,随机变量的不确定性最大.% y( M/ u  u" s) X
    那么“仿照”之前的信息量的公式,可以推广一下下啦。 : @  h8 ]7 s  R5 _+ L9 w' v
    假设一个概率分布有两个随机变量决定。其中x有n种取值,y有m种取值。那么可以得到一个nxm的联合概率分布的表。那么有: 8 s# E. |$ l! o' N" d
    复合熵(联合熵)" u4 y, L+ v8 V/ j

    同样,复合熵的公式还可以推广到连续变量和多个变量的情况。这里就不写了。

    条件熵:

    8 m. Q! v, X8 r: i: l5 L9 z8 C8 v
    $ V9 M- |6 Y, d* m' G( R4 ^+ ]
    上面这个公式可能有点难以理解,不知道这个公式是怎么来的。举一个例子来说明一下: % u* b: F% I$ y  S, E5 e) H/ u
    如果以x表示学生体重,以y表示身高,以 p(x∣y)表示身高为某个特定的y时的体重为x的概率,把熵公式用到这个特殊情况得到是熵显然应当是
    / {( Z5 U9 r3 s3 e- t2 V. }上面得到的计算公式是针对y为一个特殊值y时求得的熵。考虑到y会出现各种可能值,如果问已知学生身高时(不特指某一身高,而是泛指身高已经知道)的体重的熵(不确定程度),它应当是把前面的公式依各种y的出现概率做加权平均,那么就可以得到上面的条件熵的公式。
    8 c  U/ C9 W  C# P4 O
    ; L/ g+ F* G, @2 o; U/ g: hⅢ.变形总结7 t! b, U4 |( [" t$ K" N. o
    进过上面的之后,应该对于信息量和信息熵的几个公式有了了解。然后那几个公式还可以变形为一些常用的公式。这里总结一下
      K2 L! }8 A+ m5 o: B+ g' z首先要先介绍一下条件分布的乘法定理:, A9 `5 b) ^1 r3 E8 ~

    . a$ G# O- B5 h6 {( b4 ~, D4 [7 q" O. t6 Y; N$ {0 C% |: P1 F& Q
    然后把之前条件熵式子使用上面这个公式改写一下,可以写为:
    # i" @" Q$ a! {" h) u$ l
    0 D' |: X2 g- t% m1 F, A" X当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到的时候,所对应的熵与条件熵分别称为经验熵(empirical entropy)和经验条件熵(empirical conditional entropy)
    / k  Z  R4 \. x  }( J7 K  V& |9 c4 J+ g  D, k0 w" \' _. j
    上面的式子表明,只要你能够得到联合分布和y的分布就能够求出条件熵了。事实上,还能够更加简化成为常见的形式:
    5 u5 }: j% ^( e9 P- E8 m! }3 L- R  r这里利用上面的公式(以离散型为例子)直接推导,有
    1 E" I) o/ w# Q9 k4 \: u. N" u, n7 u$ B- D5 d: b; B

    ' J7 I; Q( W/ ~( B0 V2 Z4 `证明:
    3 i* i; |' K* o" U! {% z2 k这个公式把复合熵、条件熵以及熵联系到一起了。它们也显示了熵的对称性。
    9 d3 t, V+ k) `4 `% S7 C( [  K
    - ~! J4 h# P: Y4 |
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-13 09:03 , Processed in 0.596489 second(s), 50 queries .

    回顶部