玩简单的游戏（深度Q网络） - 数学建模社区-数学中国

import numpy as np2 _- A5 }& j* ?$ P2 w1 }3 k P. \; X; ]
import tensorflow as tf7 h- e: l6 P, m m
from tensorflow.keras import models, layers, optimizers
) [( D7 n4 x# d( i9 }2 w3 h
import gym
: v: u X2 v! o6 E1 @. |
import random
2 L0 F9 e0 ~' F. a: n0 L" e, t
from collections import deque
X8 b( ], U& |9 t8 @: W! e1 E3 d
9 @0 }: e/ @; ?; ~9 C: J; y
# 创建环境
- D& A4 n% L1 S+ q( B
env = gym.make('Pong-v0')! `( L! W0 J2 g
num_actions = env.action_space.n
8 P) r; x3 \( z" M
1 t+ h/ t# Y# N9 p1 F, G& d- ^4 Q
# 创建DQN模型; r$ i( V+ m5 N& {6 l7 H
def create_model():
8 D% w/ d5 i2 l7 F% x
model = models.Sequential([
: F, m; I7 d7 h7 y9 U- G4 w p
layers.Conv2D(32, (8, 8), strides=(4, 4), activation='relu', input_shape=(210, 160, 3)),) T. A! `! a9 M! v5 Y% k
layers.Conv2D(64, (4, 4), strides=(2, 2), activation='relu'),# I* v1 w' D. B
layers.Conv2D(64, (3, 3), activation='relu'),. R6 g; u2 F* B; J" e" q
layers.Flatten(),
0 j1 ?. a+ R( S0 w. V
layers.Dense(512, activation='relu'),
$ y! U* t4 H+ n! _0 M- A
layers.Dense(num_actions). M9 \: v1 B/ l" ?7 \# t# F
])
; H$ x, x$ N2 K6 V; i" K$ J, R' h" k
model.compile(optimizer=optimizers.Adam(), loss='mse')
0 P6 r8 s& q- D% w O5 x' b8 E' n
return model
5 b- J3 T: V7 x. W F
O' v( O2 r+ q
# 经验回放" R C/ K" f. L! J: J% z6 ]
class ReplayBuffer:- `+ X# Q8 n7 [/ i; E
def __init__(self, capacity):
. r7 X: r. \% \' _
self.buffer = deque(maxlen=capacity)
* \4 [& W, M1 M. R
) U3 B) W6 [- j. k O0 }1 q6 ~
def add(self, experience):" z9 t7 \- }8 e% r
self.buffer.append(experience)
9 l: A, R3 E7 R/ ?
- l# s# `* Z/ k7 P& B
def sample(self, batch_size):$ [& J) H; F8 T! b, s& k
return random.sample(self.buffer, batch_size)
6 M" x: i9 n$ l& V% s+ U
6 B( d5 M5 ? q: A7 f
# 创建DQN和目标网络
4 V, D x0 Y8 h9 G; d2 A
dqn_model = create_model()
' g1 l2 _0 Y/ j, ]
target_model = create_model()( @5 B& o2 c7 j0 E3 Q! N
target_model.set_weights(dqn_model.get_weights()), T% c5 k1 {6 t' h0 P; {) A- i
- l* ]% M2 w" @) E/ x
# 超参数7 R& a9 f4 c' i& H) G1 d% _# E1 R& `
batch_size = 32
: w' \9 T$ K/ m( V0 p8 B
update_target_network = 1000. I2 V9 S; C* Y/ ^
replay_buffer = ReplayBuffer(capacity=10000)
: t0 Z9 k. X2 o
gamma = 0.99 # 折扣因子$ o. n8 o, b: G1 T
7 A/ W1 }' [& _# v( @: C8 X
# 训练循环& v; P8 i. \: d# ?% [
for episode in range(1000):; c* `& O# X' j
state = env.reset()
T7 z/ C$ a# s7 c
done = False
# E! f. W' A+ H. [$ Y8 W7 M
total_reward = 0
' w( N( r1 E! t+ }0 w9 p
; r9 J/ Z& y1 S8 u# l$ x
while not done:
6 v7 Q( Q( R5 \
# 使用epsilon-贪婪策略选择动作
6 n K+ `% Y/ d% V+ S
if np.random.rand() < epsilon:
& }5 u1 m: N( F2 J8 O
action = env.action_space.sample()& P2 d/ |9 r7 T: T, ~8 N: F
else:
" D/ k6 q8 X& i; j
action_values = dqn_model.predict(state[np.newaxis, :, :, :])
" ~3 C$ X* N0 x5 H9 H
action = np.argmax(action_values[0])" Q d1 I# I5 H4 q! _6 a
. ]% R `7 \& r5 E: v
next_state, reward, done, _ = env.step(action)
; l1 c+ O/ g. L- ]% \; ]: e
total_reward += reward
1 Q# H! k. e0 Q6 B% j- C
2 T x8 g( |3 ]8 e( ?
# 保存经验$ i( J3 E- r& S$ t2 ~4 L4 e
replay_buffer.add((state, action, reward, next_state, done))
6 `, M0 h5 Y! {
: N6 u% d6 z$ ]$ }/ O& N a) Z. @0 T
# 从经验回放中采样( P9 J% g* m0 q! P, ?! ?- f
if len(replay_buffer.buffer) > batch_size:" y, y0 S" t( p2 I2 j
batch = replay_buffer.sample(batch_size)
2 U4 |1 s- Y$ e7 x- _& u! T
# 更新DQN模型...2 ?3 x7 A6 `- t6 ~5 w7 j
) A0 p" O/ I7 z( E
# 更新目标网络
" Z9 i8 ~- |' L' g# ?; r* s# q
if episode % update_target_network == 0:# E: M* d: |! h7 G X: f
target_model.set_weights(dqn_model.get_weights())
; I4 S* U% q) V
0 ^9 F! k* ^) P9 `7 ~
# 测试智能体...

复制代码