强化学习

[复制链接]

字体大小: 正常放大

2744557306

1189 主题	4 听众	2934 积分

该用户从未签到

电梯直达

1^#

发表于 2024-8-18 09:59 |只看该作者 |正序浏览

|招呼Ta 关注Ta

在《强化学习》第二版的序言中，作者说明了自1998年首版以来，人工智能特别是强化学习领域的快速发展，使得出版新版本显得必要。第二版旨在继续提供清晰的强化学习核心思想和算法介绍，增加一些新主题并扩展已有内容，但不求全面覆盖该领域的所有进展。

新版本在符号上进行了改进，以减少常见的混淆，强调随机变量（用大写字母表示）与其具体值（用小写字母表示）之间的区别。例如，状态、动作和奖励用St、At和Rt表示，而具体值用s、a和r表示。价值函数用小写字母表示，表格估计用大写字母表示。向量用粗体小写字母表示，随机变量仍然适用。作者也对现有的转移概率和期望奖励表示法进行了改进，以更好地反映奖励的动态特征。