深度强化学习(DRL)的一炮走红,让人们一谈起强化学习首先想到的往往是DRL,而强化学习最早的起源来自 optimal control theory 。LQR和iLQR 作为最优控制/基于模型的强化学习算法,在环境动态系统已知的情况下能更加高效的利用样本,并在化工生产过程,无人驾驶,机械臂控制等实际应用场景取得了很好的效果。
参考文献
说明:
本文的推导过程主要来自于伯克利CS285课程[3]和[4]
[1] Tassa Y, Erez T, Todorov E. Synthesis and stabilization of complex behaviors through online trajectory optimization[C]//2012 IEEE/RSJ International Conference on Intelligent Robots and Systems. IEEE, 2012: 4906-4913.
[2] Levine S, Koltun V. Guided policy search[C]//International Conference on Machine Learning. 2013: 1-9.
[3] Course: CS285 | EECS at UC Berkeley
[4]https://medium.com/@jonathan_hui/rl-lqr-ilqr-linear-quadratic-regulator-a5de5104c750