- 在线时间
- 478 小时
- 最后登录
- 2026-4-9
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7788 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2922
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1171
- 主题
- 1186
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
在《强化学习》第二版的序言中,作者说明了自1998年首版以来,人工智能特别是强化学习领域的快速发展,使得出版新版本显得必要。第二版旨在继续提供清晰的强化学习核心思想和算法介绍,增加一些新主题并扩展已有内容,但不求全面覆盖该领域的所有进展。% N, W7 O; Z c/ c/ M
; n- V m4 F8 E
新版本在符号上进行了改进,以减少常见的混淆,强调随机变量(用大写字母表示)与其具体值(用小写字母表示)之间的区别。例如,状态、动作和奖励用St、At和Rt表示,而具体值用s、a和r表示。价值函数用小写字母表示,表格估计用大写字母表示。向量用粗体小写字母表示,随机变量仍然适用。作者也对现有的转移概率和期望奖励表示法进行了改进,以更好地反映奖励的动态特征。
5 c; B" F# y- \
- X5 ?) A- \9 }8 Z+ N
/ C6 u& y9 }: F4 K) ~# C# G( `
6 S4 r, r2 d( n" P4 U) \# w |
zan
|