经典控制任务（Q学习/策略梯度） - 数学建模社区-数学中国

import gym) G1 u+ a' A! b
import numpy as np
7 W* u5 g" c- W9 ?& J
/ x% M; M6 e/ I( f9 ~4 E8 V
# 初始化环境
& k: R* M" r6 q& T2 v5 }. p
env = gym.make('CartPole-v1')
/ z3 s7 V3 r( g( \6 C5 z
n_actions = env.action_space.n
6 {( ~3 t. t; M8 [9 \$ M
n_states = env.observation_space.shape[0]8 w$ O) y. q6 c( J
, c; u. u1 N; D
# 初始化Q表
) J- b. P7 C* C% X
Q = np.zeros((n_states, n_actions))# M! k A) d5 K0 G& d/ O0 @
6 D& [* N! y4 X+ v" }' C6 |
# 超参数' q% e U/ [/ J4 d2 w0 F
alpha = 0.1 # 学习率: O" e$ R4 C6 C2 r; \- V0 f/ V& Q
gamma = 0.99 # 折扣因子) T4 u/ ]( t" M' u6 `
epsilon = 0.1 # 探索率
9 Y( x$ J* g' M0 S
2 M+ v z8 e# p
# 训练过程
! t# v2 S5 u4 _3 {
for episode in range(1000):# [9 i+ N! I5 o5 z' K! ~
state = env.reset(). x( k4 {8 F( k+ J& f: S
done = False8 b8 B- b$ H. E% K
) ~* `# l; K1 i
while not done:9 r" Q, ^" ^# I0 R. r i
# epsilon-贪婪策略进行动作选择- s( q3 |" [& v$ l; U# y. [
if np.random.rand() < epsilon:% K& r6 H! E# H+ X, L5 E
action = env.action_space.sample() # 探索, f% [+ L7 E2 z# l, M
else:
6 {5 G$ E9 m! B! W9 J+ I& U; Q4 z9 r
action = np.argmax(Q[state, :]) # 利用
" i. f& p. p* M |
5 H1 c$ v* U4 D. n
# 执行动作* D& c H+ G s# [
next_state, reward, done, _ = env.step(action)4 I& ]2 P# {% N- C
8 m1 g/ r2 b. x c
# Q表更新
* e" x8 T9 j, m3 i) S( P
Q[state, action] = Q[state, action] + alpha * (reward + gamma * np.max(Q[next_state, :]) - Q[state, action])* t1 d0 s" }# j G) y1 U; Y$ f' \
: Y: G8 ^+ y0 V2 g5 k0 t+ @
state = next_state
3 @, F% n/ Z8 w+ D. g5 _% K
$ a# _7 o1 n! B" a3 }* N
# 测试智能体

复制代码