- 在线时间
- 479 小时
- 最后登录
- 2026-5-9
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7813 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2931
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1173
- 主题
- 1188
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
在《强化学习》第二版的序言中,作者说明了自1998年首版以来,人工智能特别是强化学习领域的快速发展,使得出版新版本显得必要。第二版旨在继续提供清晰的强化学习核心思想和算法介绍,增加一些新主题并扩展已有内容,但不求全面覆盖该领域的所有进展。
" K4 o! |; Y# ], j3 z7 \/ P/ V( o8 g$ \- z6 E
新版本在符号上进行了改进,以减少常见的混淆,强调随机变量(用大写字母表示)与其具体值(用小写字母表示)之间的区别。例如,状态、动作和奖励用St、At和Rt表示,而具体值用s、a和r表示。价值函数用小写字母表示,表格估计用大写字母表示。向量用粗体小写字母表示,随机变量仍然适用。作者也对现有的转移概率和期望奖励表示法进行了改进,以更好地反映奖励的动态特征。. V8 m, E$ T: Q" R" T
$ d% K# k. ^0 J% V+ p- v) Y# y$ S1 o
- {* U9 ~& x! I5 s' {- }3 A
|
zan
|