- 在线时间
- 514 小时
- 最后登录
- 2023-12-1
- 注册时间
- 2018-7-17
- 听众数
- 15
- 收听数
- 0
- 能力
- 0 分
- 体力
- 40255 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 12788
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1419
- 主题
- 1178
- 精华
- 0
- 分享
- 0
- 好友
- 15
TA的每日心情 | 开心 2023-7-31 10:17 |
|---|
签到天数: 198 天 [LV.7]常住居民III
- 自我介绍
- 数学中国浅夏
 |
使用LSTM预测时间序列数据
+ Q1 C' x) x; C' I% s8 F/ Y2 e! i: w# a
; Y1 U2 d! v) L8 w* @" n7 H2 S& i文章目录$ d; B' a# a# g# X% S
背景
, w& N2 B# Q& z3 C结论/ r0 f) _, t! i: u7 ?# a' }2 |/ L+ N
代码
+ s4 \7 `, _7 q! C实验结果6 A) E4 \# y, B& O8 p9 H
RNN和DNN的区别8 x- H( U1 [( d" U6 W0 T% Y" c
RNN和LSTM的区别! c9 H7 @; c7 _+ Y) q- Z' a
背景. Q O( B& F$ {( B% w! |
复现 @“使用Keras进行LSTM实战” https://blog.csdn.net/u012735708/article/details/82769711 中的实验; k# V% F9 `0 o% B# O. @
熟悉用LSTM模型训练
' {6 p' H: ^' W! c验证将时序数据 转化为分类问题后,预测是否有效果2 T& L1 ~$ z4 p+ X7 @ c7 p
对比SimpleRNN与LSTM模型 哪个效果最好?! i9 d" z! X; q! w. W U7 X6 m
验证LSTM相比于Dense()模型 是否有提升?
7 M o& P2 j. c# I0 [5 B) [ g对比使用前3天的数据 和使用前1天的数据 哪个效果最好?! W3 I$ u# q, R' K( h% v
结论
/ A7 R; z8 b. ^( B6 u6 H使用前3天的数据预测当天的空气质量的效果 没有 比只用前一天的数据 好5 _4 P/ D0 u# j* S, G$ E4 s) g6 m
使用LSTM的效果优于SimpleRNN' V, Q$ o4 z7 k) v3 Q$ W& R' a G
代码
& t# W4 H. v& q* S {3 `3 T8 z% gfrom pandas import read_csv
3 g9 t* s% M8 q; k8 w' x- t7 Mfrom datetime import datetime
5 V/ D8 C* R2 Ximport pandas as pd7 u% Y# r; k2 S C
from pandas import DataFrame3 J4 N& \; }6 Y1 G4 Y6 U. n
from sklearn.preprocessing import LabelEncoder,MinMaxScaler
/ b8 x* o6 h, t! R9 ^from sklearn.metrics import mean_squared_error
- e T$ x$ ]8 m9 S2 y' A: Xfrom keras.models import Sequential
3 O* g. H4 `& P2 bfrom keras.layers import Dense, Dropout( A" p1 i7 R) i7 O+ u$ }! H% k% b) U
from keras.layers import LSTM% c7 U. h$ A0 z7 T
from keras.layers.recurrent import SimpleRNN2 M- _0 l; d9 G3 P- J
from numpy import concatenate( K% J0 L6 @4 t
from math import sqrt$ y$ ~. L e7 B4 e
* \$ |4 [8 g. j8 u5 T+ x6 c2 `% `7 R) W
* {6 X( Q8 g/ o! b- g
& Q! L8 t3 t& X1 P
# load data
4 T* {8 Q5 y b0 C* I* B* jdef parse(x):- s* v/ p2 B- W
return datetime.strptime(x, '%Y %m %d %H')
3 X4 h- H& B+ |5 P $ I1 l8 S" `+ H* b" }& V) G
def read_raw():
. @& e5 l+ E9 _7 Z dataset = pd.read_csv('raw.csv', parse_dates = [['year', 'month', 'day', 'hour']], index_col=0, date_parser=parse)
/ E1 k4 g* ]' n. K0 v) L dataset.drop('No', axis=1, inplace=True)7 C" \# T0 _: [5 v( l
# manually specify column names
. k5 `0 V, n' A7 V# r; u dataset.columns = ['pollution', 'dew', 'temp', 'press', 'wnd_dir', 'wnd_spd', 'snow', 'rain']' O7 X0 D( o% h4 H' f- O
dataset.index.name = 'date') o& A4 x$ X7 e5 I
# mark all NA values with 0
9 S9 _' J7 F# ~3 ] D& [ dataset['pollution'].fillna(0, inplace=True)
' g7 _- \" X$ o8 s. @- z0 e # drop the first 24 hours
* X, o: f: |/ v- G# d9 n8 f: e4 n dataset = dataset[24:]
2 L: z- y7 z. s # summarize first 5 rows2 Z) _. H, l( P) |1 s) j
print(dataset.head(5))- m% e) B! O. l& @! O& G& J
# save to file6 S: E" M7 r$ `+ ?- F
dataset.to_csv('pollution.csv')
* L3 E" L. K* ~3 L a( O- Q4 X; l
! @6 u% k) K! a- [/ P. E0 \( m7 t7 z" G: ^, r
7 E+ W. s2 e) `; J
6 a& [! _! I& E+ G# convert series to supervised learning' f( n: }6 d9 P7 z. h
def series_to_supervised(data, n_in=1, n_out=1, dropnan=True):: J1 |' a. ?* G1 @; j( Y7 H2 a
n_vars = 1 if type(data) is list else data.shape[1]
, R9 ?$ L( a) W" n df = DataFrame(data); X7 Z& X0 I8 E5 y2 A, |
cols, names = list(), list()
: P4 ~- P1 F6 Y( Q0 u # input sequence (t-n, ... t-1)" d* a I% f1 m W* A/ P! i: \) A9 [
for i in range(n_in, 0, -1):7 J: B9 N1 S7 k: A: l
cols.append(df.shift(i))& u+ w( q6 b, D3 I
names += [('var%d(t-%d)' % (j+1, i)) for j in range(n_vars)]
. o6 Y L# Y& b8 H: p1 j0 N # forecast sequence (t, t+1, ... t+n)! q' ~- g. Y7 Q! i r
for i in range(0, n_out):# @ l6 T6 D7 d
cols.append(df.shift(-i))
9 Z) S7 O% a/ t3 I! ]7 p3 d. x1 S( y if i == 0:2 P7 T6 r4 u6 V
names += [('var%d(t)' % (j+1)) for j in range(n_vars)]
c( n, c5 e' N1 |( @ h- \" z0 f else:
4 k8 D$ L7 T6 j: {1 [ P# w names += [('var%d(t+%d)' % (j+1, i)) for j in range(n_vars)]
, v; u5 I' n3 H) ~7 g# e7 F # put it all together( K, u% o1 ]8 V
agg = pd.concat(cols, axis=1)5 \" v- v" l- V; [. f, ^; v
agg.columns = names
; [4 h9 o4 |6 Z1 Q, ?& h # drop rows with NaN values
7 d6 q7 T: t0 z8 U7 Z9 N if dropnan:3 p1 z0 Q5 j- N3 L% Z7 p
agg.dropna(inplace=True)
2 y6 K2 O8 V+ W6 A) {2 K1 U0 k return agg
8 \ H! f; _7 x* H* _
. w1 q. }& K: F' c2 W# load dataset
: F4 E0 }1 ]4 {% Ydataset = read_csv('pollution.csv', header=0, index_col=0). K, l( l. d0 ^& [
values = dataset.values" D6 r& D. d! }, f7 E
: `) {; m3 D8 f. |
+ _7 t: b2 Y% l, q# integer encode direction
8 _* k* q" O& ?9 I/ i mencoder = LabelEncoder(); B& G, x+ @2 q& U& q& H0 Y; J
print(values[:,4])- t. Q5 o$ @: H6 U6 h6 `( g
values[:,4] = encoder.fit_transform(values[:,4])
$ C% h. s* [7 F; e0 |+ F" h# ensure all data is float
; o( h( n' n6 M) F0 N1 d1 Xvalues = values.astype('float32')
; j$ r5 U# A# r8 U. x; U# normalize features
( t( a8 |: \9 _2 |9 Fscaler = MinMaxScaler(feature_range=(0, 1))% r7 s9 A( R: v% t0 H* z
scaled = scaler.fit_transform(values)3 c" u- T! I: n
# frame as supervised learning& R7 K2 L& w- E+ d$ e' ? f+ r
reframed = series_to_supervised(scaled, 1, 1)
. C" U7 f8 J+ k: [#reframed = series_to_supervised(scaled, 3, 1) #用前3天的数据,预测当天的数据
* t7 Q P5 s3 \print("columns:", reframed.columns)( z' m" u* z/ Z4 {
# drop columns we don't want to predict
3 e, H, k) {! e* {: X( F% hreframed.drop(reframed.columns[[9,10,11,12,13,14,15]], axis=1, inplace=True) #用前1天的数据,预测当天的数据
' P) S6 z- O( R#reframed.drop(reframed.columns[[25,26,27,28,29,30,31]], axis=1, inplace=True)#用前3天的数据,预测当天的数据
$ r4 I* Z! B5 n$ V4 _( H/ f# \print(reframed.head())2 g2 u$ a8 j o1 z
print("new columns:", reframed.columns)& g( K, J0 @* ^1 m0 @- @0 \$ X6 _6 ]
# split into train and test sets
- y/ x* t. u* F+ o+ {values = reframed.values
' z+ ` P7 p2 kn_train_hours = 365 * 24
* a: C- b6 P3 ^8 D, ytrain = values[:n_train_hours, :]. H( k: u8 L9 |: n+ y& Z
test = values[n_train_hours:, :]2 E7 M+ T$ D4 l. G- w ]0 i$ c
# split into input and outputs$ Q. |2 }( j0 t
train_X, train_y = train[:, :-1], train[:, -1]
" B, i% r% G# J$ L: z- J, E2 ?test_X, test_y = test[:, :-1], test[:, -1]
' `, p z/ O' I+ o# reshape input to be 3D [samples, timesteps, features]& j8 B1 c/ P; a+ B
#使用Dense()模型时不用变换: m# u! [" @" N; g* F
train_X = train_X.reshape((train_X.shape[0], 1, train_X.shape[1]))
% D. v& l. }6 L; z/ Q# e; Rtest_X = test_X.reshape((test_X.shape[0], 1, test_X.shape[1]))
" a6 K: i# o- c7 r1 G+ Fprint(train_X.shape, train_y.shape, test_X.shape, test_y.shape); |! V# h" v, |- b( `* o
# design network1 |5 i! M$ w* A, N& {( y
model = Sequential()- R' B9 _ _( F8 }3 i( P
#model.add(LSTM(50, input_shape=(train_X.shape[1], train_X.shape[2]))) U, D3 R- j9 J2 ]& p
#model.add(Dense(50, activation='relu', input_dim = 8))3 n, p% z8 I0 S/ v5 Y) u
model.add(SimpleRNN(50, input_shape=(train_X.shape[1], train_X.shape[2])))
, L4 C9 p8 N% f7 L5 v/ vmodel.add(Dense(1))2 p& d @/ @. x5 u z0 @7 B- _
model.compile(loss='mae', optimizer='adam')( m- H& O% N7 @& o7 @: B( S
# fit network
6 S: I9 O, P2 S5 j- M2 Nhistory = model.fit(train_X, train_y, epochs=50, batch_size=72, validation_data=(test_X, test_y), verbose=2, shuffle=False)
. u8 I3 y! H! \: y1 w* _% [1 S# make a prediction
& d2 v8 e3 P; j1 |& \yhat = model.predict(test_X)
" n" ^$ P& P5 t1 `0 T8 E/ gprint("yhat shape:", yhat.shape)0 j. @' L" ]% P, y: z6 _; k" v- w, W, Q
'''
7 T% G6 G p2 M3 J计算在测试集上的均方差
; ]9 u7 [/ |. Atest_X = test_X.reshape((test_X.shape[0], test_X.shape[2]))
$ t# `, B6 s, ]+ _# T+ ^print("test_X shape:", test_X.shape)
4 t* [: P3 h4 v. h7 ?- ^/ R) B( b6 y8 Y& y6 ]
$ f8 x6 v5 N* H- y& ^: ^
# invert scaling for forecast
# x0 J6 s$ T9 finv_yhat = concatenate((yhat, test_X[:, 1:]), axis=1)6 A5 _" c- z; I. Y: ?3 n. \
inv_yhat = scaler.inverse_transform(inv_yhat)
) [) ~# V- T& u) T8 J+ c( P* ~* }+ Binv_yhat = inv_yhat[:,0]
' @1 g# J$ p7 P9 j w# invert scaling for actual
; [) L9 [ u9 A4 ^test_y = test_y.reshape((len(test_y), 1))
# ?+ e9 I' z; q0 ~5 `4 \5 dinv_y = concatenate((test_y, test_X[:, 1:]), axis=1)* z1 M$ d; V: k2 s
print("inv_y:", inv_y[:10])
' K5 M+ E8 n: b f6 tprint("inv_y shape:", inv_y.shape)
$ r- e& ^( m" h* x! x8 H3 o
7 H' j3 O$ q5 W
9 P; O8 Q5 ]! ?( m5 T. o" E% Yinv_y = scaler.inverse_transform(inv_y)5 {8 k% u- A% [" l
print(inv_y, "*"*30)$ F2 ^' p' H$ L$ e
7 k& V r4 c; U4 j% i" V! O* o, ^1 D6 m8 D( V) m
inv_y = inv_y[:,0]" O; `' J" A2 H5 ^% H* K
# calculate RMSE
' n5 p; n2 u5 G8 @( Q3 E( A3 Z. Mrmse = sqrt(mean_squared_error(inv_y, inv_yhat))% @' ~) k9 K- x: H/ i
print(inv_y[:100], inv_yhat[:100])& z6 I( {7 |2 _$ P" _7 a
print('Test RMSE: %.3f' % rmse)
7 W$ t7 r2 ?& ?$ C% Q4 g& R+ \" z( I. Q8 A+ g7 t |
* L7 O6 t5 E# R M% ^
''', [' R# n# e( G3 c! X0 Q# O. j
实验结果
, U0 R2 ]! M% G1 d. D4 g实验1:用前一天的天气数据,预测某一天的空气质量* L' X+ v1 S1 k' y& t
使用LSTM模型8 P! j8 O8 H9 L+ ?9 V
结果:
5 l$ |4 N8 [7 W! l# ]: pEpoch 49/50
) c3 a- i( H% H0s - loss: 0.0144 - val_loss: 0.0133
: j3 f" }0 Y6 t, Y, ]: _Epoch 50/50
& O: O% l- _ z0 k ~2 s2 I; ^0s - loss: 0.0144 - val_loss: 0.0133& A* \$ |7 \* d9 u" D' V# d
# M+ f+ K: M+ l; }- A6 t) a4 Q3 Z5 K+ D6 ~0 R2 e6 Q5 T
实验2:用前3天的天气数据,预测某一天的空气质量2 q! y- U0 P3 o9 |) m( d
使用LSTM模型
7 ]3 R* z5 |+ H$ _
9 f9 r; i- H7 a# u) `1 K ?4 k: w0 v' Z( m0 v6 c3 d
结果:" Q5 p& L: W3 H: b1 U/ p- b
Epoch 49/50
# a& U o) W2 d) L0s - loss: 0.0147 - val_loss: 0.0149- N3 I& a* w5 u# |; ]0 \1 ~; s
Epoch 50/50
) G' a! m/ }0 Z1 l8 Z8 p k3 J" z0s - loss: 0.0147 - val_loss: 0.0150
2 H, `# `$ U2 R" P. T! E/ n* m. J6 O N) E+ @4 o7 ~9 ]
- T8 O/ a( u, K/ e1 k实验3:用前一天的天气数据,预测某一天的空气质量/ P9 S( D6 o. C' _
使用普通的全连接模型 Dense()3 \- h- X5 k7 C' U' R8 u
结果:
* \6 X* y9 \2 H+ vEpoch 49/50; q9 @" l5 M' I- W2 d2 }6 q
0s - loss: 0.0144 - val_loss: 0.0146
$ @7 A# w) h8 iEpoch 50/50
+ M" S( z, m( }4 z/ [0s - loss: 0.0148 - val_loss: 0.0151" U7 W* c [9 `
+ M8 K+ @; ]2 k( {, Y9 G
3 @6 r; u, _0 }3 Z* Z实验4:用前三天的天气数据,预测某一天的空气质量
5 A+ i/ p* m- q" C5 C) N) E3 Y使用普通的全连接模型 Dense()
+ P' r% S4 g1 k; _; X9 E结果:3 G7 u% N! u/ L1 f0 }/ b9 O: J3 g
Epoch 49/50
: p5 d+ B/ o/ t9 {0s - loss: 0.0150 - val_loss: 0.0165) D6 z0 D% p5 d
Epoch 50/50
. J+ W, }; Z% {, C, Q9 Y8 ]# U9 w. w8 _0s - loss: 0.0148 - val_loss: 0.0141
' A* h, s3 T% X
' _4 q7 F4 U ?) m2 c! r+ P Y8 W: b( {7 H. d
实验5:用前一天的天气数据,预测某一天的空气质量
7 P/ s% ?: n! f# C使用SimpleRNN; E( O% o8 R4 O9 I/ U, o
Epoch 49/50' C E6 J# H* P' n
0s - loss: 0.0160 - val_loss: 0.0140# U: t: O. ~& ^+ ]
Epoch 50/50
y/ @$ B m$ l6 n' U3 ]3 [# o0s - loss: 0.0147 - val_loss: 0.0150
2 M3 @; A, M" ^6 ~9 N- w- k
; x+ h1 z' A* g( s( _
1 V( A8 c* t# p' i实验6:用前三天的天气数据,预测某一天的空气质量" Y# N m0 J4 l8 C7 Z* l* q# T
使用SimpleRNN
6 [& D0 I* ^2 ^6 n2 P& Q7 bEpoch 49/508 M0 i0 x" `* N
0s - loss: 0.0164 - val_loss: 0.02339 E& J, p' r& O, V/ X
Epoch 50/50: G) Y, h% {* Q8 w
0s - loss: 0.0166 - val_loss: 0.0227# o" n. w' L* D1 X
RNN和DNN的区别RNN中的循环是指一个序列当前的输出与前面的输出也有关系。也就是说,网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐层之间的节点不再是无连接的而是有连接的,并且隐层的输入不仅包括输入层的输出还包括上一时刻隐层的输出。 & S/ c8 X% i0 v& O1 P$ R2 S
: k$ T; s: ]8 ]( w0 @7 x! Y: n
$ W S I8 `3 D& XRNN和LSTM的区别
& A8 e+ c" w. `" f! ?" o e4 D- |LSTM的内部结构通过门控状态来控制传输状态,记住需要长时间记忆的,忘记不重要的信息;而不像普通的RNN那样只能够“呆萌”地仅有一种记忆叠加方式。对很多需要“长期记忆”的任务来说,尤其好用。5 i7 J9 F( K3 }
4 T; C1 Q8 g; C: J# L1 L: Q
0 a0 k8 B) K6 S' R, A& x
但也因为引入了很多内容,导致参数变多,也使得训练难度加大了很多。因此很多时候我们往往会使用效果和LSTM相当但参数更少的GRU来构建大训练量的模型。
/ X' ?1 U5 j# j C6 n. ^8 Z5 c , Q$ z7 Z; I8 A* I ?5 E; i8 v
" [! G, O3 r7 y: W5 V& N请关注数学中国微博和数学中国公众号,如有疑问联系数学中国工作人员
+ O" ]( D X0 G9 ]5 e
3 P, m9 c, I) y+ _* E( u* u
9 @3 L5 W+ D N$ R6 n$ j |
zan
|