- 在线时间
- 480 小时
- 最后登录
- 2026-6-1
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7823 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2934
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1174
- 主题
- 1189
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
在《强化学习》第二版的序言中,作者说明了自1998年首版以来,人工智能特别是强化学习领域的快速发展,使得出版新版本显得必要。第二版旨在继续提供清晰的强化学习核心思想和算法介绍,增加一些新主题并扩展已有内容,但不求全面覆盖该领域的所有进展。
^ Q# H& f7 _
. [' i$ ~, {* l7 [% i新版本在符号上进行了改进,以减少常见的混淆,强调随机变量(用大写字母表示)与其具体值(用小写字母表示)之间的区别。例如,状态、动作和奖励用St、At和Rt表示,而具体值用s、a和r表示。价值函数用小写字母表示,表格估计用大写字母表示。向量用粗体小写字母表示,随机变量仍然适用。作者也对现有的转移概率和期望奖励表示法进行了改进,以更好地反映奖励的动态特征。) H7 I4 R8 j+ z9 a) `% m
/ p" {) [# t1 \( r9 I6 f5 L
% D# o2 _& @2 W+ G5 o
3 N+ Y: r d/ e9 P6 |
|
zan
|