- 在线时间
- 463 小时
- 最后登录
- 2025-6-15
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7342 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2781
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1156
- 主题
- 1171
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
在《强化学习》第二版的序言中,作者说明了自1998年首版以来,人工智能特别是强化学习领域的快速发展,使得出版新版本显得必要。第二版旨在继续提供清晰的强化学习核心思想和算法介绍,增加一些新主题并扩展已有内容,但不求全面覆盖该领域的所有进展。' G4 {0 T- @! C6 E6 d0 K
. z, a* M$ V' G
新版本在符号上进行了改进,以减少常见的混淆,强调随机变量(用大写字母表示)与其具体值(用小写字母表示)之间的区别。例如,状态、动作和奖励用St、At和Rt表示,而具体值用s、a和r表示。价值函数用小写字母表示,表格估计用大写字母表示。向量用粗体小写字母表示,随机变量仍然适用。作者也对现有的转移概率和期望奖励表示法进行了改进,以更好地反映奖励的动态特征。
& O, j7 Y- k6 y4 M) H1 [2 w4 ]! y2 D
; U( o+ f1 V- |* ]. G H2 f# a4 M8 N
5 X1 {0 @- u Y( n) U3 t/ `" ^5 r8 n |
zan
|