- 在线时间
- 514 小时
- 最后登录
- 2023-12-1
- 注册时间
- 2018-7-17
- 听众数
- 15
- 收听数
- 0
- 能力
- 0 分
- 体力
- 40243 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 12784
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1419
- 主题
- 1178
- 精华
- 0
- 分享
- 0
- 好友
- 15
TA的每日心情 | 开心 2023-7-31 10:17 |
|---|
签到天数: 198 天 [LV.7]常住居民III
- 自我介绍
- 数学中国浅夏
 |
使用LSTM预测时间序列数据
4 W1 x2 q2 Y5 B% q
5 x0 d& U/ z. n4 r
: {. S6 q* I( h( g文章目录- i& l2 Y9 a+ O& ]+ x$ ~
背景7 G% d/ x5 J9 h( y# w8 P7 ]
结论
8 b7 d8 E( X5 {代码3 ~. m. r4 W+ v* a6 b8 {- i
实验结果7 t: h6 T% {. Y! b( b
RNN和DNN的区别; |- Z- T$ {2 C/ }' _8 u
RNN和LSTM的区别
Y _- A" ]; z: [背景; h. I3 }: R, I: @) `$ `0 v
复现 @“使用Keras进行LSTM实战” https://blog.csdn.net/u012735708/article/details/82769711 中的实验/ D; J6 N3 E# X" w+ ?/ u- z
熟悉用LSTM模型训练
% b/ G/ M$ f3 V: v! r3 `验证将时序数据 转化为分类问题后,预测是否有效果
! c3 r( V1 g4 x: m7 q4 y2 P4 l, x对比SimpleRNN与LSTM模型 哪个效果最好?
5 h O/ M. d3 o6 i- U验证LSTM相比于Dense()模型 是否有提升?/ c: j Q- `4 o
对比使用前3天的数据 和使用前1天的数据 哪个效果最好?1 p# Y" \+ ~% z3 ]+ F* Q8 E& j1 v
结论
, y8 J$ {: S. ^# n使用前3天的数据预测当天的空气质量的效果 没有 比只用前一天的数据 好2 Z. W! h$ @. X. q- d' g
使用LSTM的效果优于SimpleRNN7 b' c0 N. G* S b. M9 x2 k
代码
7 Q! j# W7 z0 @, C$ G8 G6 r! tfrom pandas import read_csv
. a) v8 Z* n2 M; Kfrom datetime import datetime
: j% _0 F2 g4 z1 N' Simport pandas as pd) R; T* P& r u6 Z: x* O
from pandas import DataFrame
& {* b8 p; b7 G8 N9 w! ?& ifrom sklearn.preprocessing import LabelEncoder,MinMaxScaler* d) a2 A% O8 y- n
from sklearn.metrics import mean_squared_error: t- g$ L8 P' {$ W9 S
from keras.models import Sequential6 E% b( j1 ?7 \! T3 s- \0 d
from keras.layers import Dense, Dropout2 _& l, B& g- d" a
from keras.layers import LSTM
& l3 L4 v* R% Q! }from keras.layers.recurrent import SimpleRNN
3 D6 T/ ~. v6 N% V- p9 nfrom numpy import concatenate
+ Z5 D1 b6 \! C% y7 hfrom math import sqrt
5 x0 [% b$ V- p4 A# v9 o2 Q9 a" w
* l+ I" A9 ~& T4 P0 U8 Q
* z2 o8 _3 A8 _$ e2 {# @
6 G3 G5 U: l* M, C9 j3 { t4 U. x1 R9 v- ~8 \( r. t6 ?- Y
# load data/ t4 A2 C. ]* g3 B- _/ Q `
def parse(x):/ J" t: _) }, h' @
return datetime.strptime(x, '%Y %m %d %H')
3 p2 C" E9 e9 h- `4 D: I7 I 9 O* T: q. D- x, q
def read_raw():
1 m, H; _# y0 p) j( B dataset = pd.read_csv('raw.csv', parse_dates = [['year', 'month', 'day', 'hour']], index_col=0, date_parser=parse)
2 o$ Q# k# t( r, d. q' d R4 m9 p dataset.drop('No', axis=1, inplace=True)
% X( |+ r6 y0 K # manually specify column names. f$ w( X+ z* n( j. O8 k
dataset.columns = ['pollution', 'dew', 'temp', 'press', 'wnd_dir', 'wnd_spd', 'snow', 'rain']$ T9 T% N+ G% w' J% \9 }: K2 d
dataset.index.name = 'date'% Z7 [% B2 `1 O; G) N
# mark all NA values with 0# e. P! j$ X, V/ `2 p! s
dataset['pollution'].fillna(0, inplace=True)3 j) z- [- _0 z; ]
# drop the first 24 hours
& t/ Q, G ^. E0 j7 w3 V dataset = dataset[24:]
9 j" @, b) U7 i6 [# T: a! n' M # summarize first 5 rows
9 w+ ^# z( F0 |3 U- g& g print(dataset.head(5))2 s/ W( N/ h. f9 X
# save to file# ?5 _2 w. w, t9 {+ H1 H2 `
dataset.to_csv('pollution.csv')
2 P! X/ S; T* `
1 r W/ ]/ N [# S z. ]
2 o9 @( K- z8 V/ Q% s: @3 `5 ~9 ^& l8 m, \+ L& c
0 X- |7 l0 H+ m9 Z C, v# convert series to supervised learning7 A3 r' p/ Z( t+ s2 I( D/ |
def series_to_supervised(data, n_in=1, n_out=1, dropnan=True):7 c7 ^- h8 u5 h( i& n" `
n_vars = 1 if type(data) is list else data.shape[1]$ H; v6 ~2 s! W$ C
df = DataFrame(data), j" ]# Q- O: O( F. w- j( Y6 D( _
cols, names = list(), list()# z' o$ ?8 N! M% r) x; d& V
# input sequence (t-n, ... t-1)
4 p. O+ |' M$ t$ ]) V+ n8 s7 y for i in range(n_in, 0, -1):: V- r! l% j& E* Y. [1 N; J6 b
cols.append(df.shift(i))4 B7 V, c# {' d; S
names += [('var%d(t-%d)' % (j+1, i)) for j in range(n_vars)]
, w% ]+ E y. M2 A C. O# r # forecast sequence (t, t+1, ... t+n)
/ P. t7 D2 W/ O for i in range(0, n_out):: m% @1 a8 q V4 v" M
cols.append(df.shift(-i))
5 I" J+ K* S3 |' Z if i == 0:9 v- W3 ?" l! M4 l
names += [('var%d(t)' % (j+1)) for j in range(n_vars)]' @3 T1 J& Q) r8 W
else:8 W9 z7 z8 T( K8 b
names += [('var%d(t+%d)' % (j+1, i)) for j in range(n_vars)]
, e" p8 \. Z9 f% r; O # put it all together4 X5 a7 I g9 w( H- ^+ e
agg = pd.concat(cols, axis=1)
. u2 p" g6 _% b& i+ F. J) Q3 E5 } agg.columns = names6 v* s7 c7 L- Z% o
# drop rows with NaN values
# @" m& u' R2 ^9 t- @ if dropnan:0 Q6 x# ]/ f/ k& j% M
agg.dropna(inplace=True)& z; K- \0 q% F
return agg' l2 q) \& L) z5 q9 j, Z; ^
5 p; ~! y9 t# y3 }4 f5 T1 _- R# load dataset
0 U2 H1 s& A' \. F5 c9 H Xdataset = read_csv('pollution.csv', header=0, index_col=0)( `. o, L9 A; q% H _
values = dataset.values
+ x5 j6 U+ j9 f
9 R. `5 m1 ?* i; g6 B+ e6 N2 c' ?# \8 b# D, N; r0 b) R4 o" ^
# integer encode direction r9 C. q" l2 o4 G m3 n
encoder = LabelEncoder()6 p1 z9 P- q% G% {+ z. H* j
print(values[:,4])$ M9 |* w. T; A0 c- Q
values[:,4] = encoder.fit_transform(values[:,4])
% K- x7 p w# X7 F% i) j1 Y# ensure all data is float$ p7 x, L9 Y5 i: H) \+ ~: D+ s: x
values = values.astype('float32'); Q3 Z. C! p* i+ J
# normalize features
: o% X* D2 u! R# cscaler = MinMaxScaler(feature_range=(0, 1))% k8 j6 h9 G% c" P4 T9 F
scaled = scaler.fit_transform(values)! d5 M& F4 e( F: n
# frame as supervised learning
3 |+ m/ v2 h2 i' lreframed = series_to_supervised(scaled, 1, 1)
2 ]7 Y5 N& y( p, k) U& n2 D#reframed = series_to_supervised(scaled, 3, 1) #用前3天的数据,预测当天的数据% X/ N0 [/ `8 H! A% o5 V- O
print("columns:", reframed.columns)
; |( }6 y% Y- T# drop columns we don't want to predict2 g+ O) Y. d( y
reframed.drop(reframed.columns[[9,10,11,12,13,14,15]], axis=1, inplace=True) #用前1天的数据,预测当天的数据' b6 u5 f. o" w/ y/ O# s% r
#reframed.drop(reframed.columns[[25,26,27,28,29,30,31]], axis=1, inplace=True)#用前3天的数据,预测当天的数据9 \9 s6 j5 ~8 f4 _# ~: ~! n
print(reframed.head())4 h+ U3 v( o# T( s+ P# j8 |( F9 O+ D
print("new columns:", reframed.columns)6 L$ ^' I4 e9 S! J( r, W
# split into train and test sets- |& r* Y- F' Q2 b0 U
values = reframed.values
3 U$ \ e/ X; x0 S" r/ I' |& @n_train_hours = 365 * 243 t( c% S/ `8 C" I2 P N$ S
train = values[:n_train_hours, :]6 P: i8 n8 A/ g% Q3 j. ]
test = values[n_train_hours:, :]) n/ V0 x- b+ t& F
# split into input and outputs
% B, i+ J* \6 g8 ~train_X, train_y = train[:, :-1], train[:, -1]8 l4 P5 V/ J" Y; W, Z( \ |, r( }9 |- [
test_X, test_y = test[:, :-1], test[:, -1]
: }7 R# e$ W1 u1 W; O# reshape input to be 3D [samples, timesteps, features]
2 u* T% s: Y6 u) o# F2 w; ~( b#使用Dense()模型时不用变换
: A W: ~7 W7 f- b3 Jtrain_X = train_X.reshape((train_X.shape[0], 1, train_X.shape[1]))4 S: I( j7 R4 i- A1 T6 S9 A
test_X = test_X.reshape((test_X.shape[0], 1, test_X.shape[1])), l8 ~3 F# S4 z+ w9 Y! p) ]
print(train_X.shape, train_y.shape, test_X.shape, test_y.shape)' g0 e) C& @0 W: F' e+ M
# design network- S. o7 y: ~! H/ U; v* y
model = Sequential()6 z/ T. Q. Z' P0 N# f/ b
#model.add(LSTM(50, input_shape=(train_X.shape[1], train_X.shape[2])))/ L! m( J4 l4 k! b
#model.add(Dense(50, activation='relu', input_dim = 8))
' [; C% X7 Z# a% Amodel.add(SimpleRNN(50, input_shape=(train_X.shape[1], train_X.shape[2])))
1 j {# [8 I- P* lmodel.add(Dense(1))
8 }% V) V" W+ O/ }model.compile(loss='mae', optimizer='adam')
- s1 T4 w2 Q% Q: s# fit network
) w; O r5 k, |2 u2 U% I2 {2 ?history = model.fit(train_X, train_y, epochs=50, batch_size=72, validation_data=(test_X, test_y), verbose=2, shuffle=False)! N: R& l* x! R: Z: k3 {( W
# make a prediction: L. W( @2 y$ Z4 _
yhat = model.predict(test_X)
6 u2 v2 ]" G3 _: z H0 f" n; hprint("yhat shape:", yhat.shape)
" |8 ^( n* ^& |''' e- G- J1 t" s9 y0 H7 K2 ?
计算在测试集上的均方差% G. v8 O" {) ~5 P1 l+ ~+ |
test_X = test_X.reshape((test_X.shape[0], test_X.shape[2]))8 V, \( O/ F- H" {4 p8 z
print("test_X shape:", test_X.shape)" T' q# F* j2 w T
) C3 T6 d$ @; l% k* {$ M# y$ g% h7 v9 E3 L% p* k' R6 ~% _
# invert scaling for forecast
- @0 x7 ^9 ?' U' R, d; _( T+ |inv_yhat = concatenate((yhat, test_X[:, 1:]), axis=1). Y0 y( J5 |" a# g' |
inv_yhat = scaler.inverse_transform(inv_yhat)7 B7 }) w0 N$ Z1 U
inv_yhat = inv_yhat[:,0]
4 \* S% l- s+ O0 t! v4 f# invert scaling for actual
D" p6 T6 c1 B* v" j* O) L0 htest_y = test_y.reshape((len(test_y), 1))( [: d4 D! c( q3 a
inv_y = concatenate((test_y, test_X[:, 1:]), axis=1)% j, r' ?3 F; j+ T* W
print("inv_y:", inv_y[:10]) Z9 Q# x+ u8 [, Q) t
print("inv_y shape:", inv_y.shape)
* G. r! W. D8 W3 S6 Y) o3 Z7 I7 Z. N/ I
* o" B4 W8 @9 q5 ~* j" N# t
inv_y = scaler.inverse_transform(inv_y)
) d; r+ z6 z/ rprint(inv_y, "*"*30)
7 g) ^5 C+ d* U6 E+ A2 V7 @- T
( V* W) R: l! P6 s) F" h7 X
) `- m8 a. B6 Y) k2 [inv_y = inv_y[:,0]
! ` L/ f. F0 @/ Z# calculate RMSE
; E7 x) Y; Y! \4 |1 N) }! srmse = sqrt(mean_squared_error(inv_y, inv_yhat))6 x; ^" i5 I' d; n' M% V3 I
print(inv_y[:100], inv_yhat[:100])
h# ?, P. r0 Nprint('Test RMSE: %.3f' % rmse)
" D" d4 f ^: U6 z. u9 K) o4 o" L" W, t1 A
; V5 `/ b- _" Y# H# a6 m0 i1 j'''7 d4 l5 x ` z; A
实验结果/ r: Q( U6 U- Q
实验1:用前一天的天气数据,预测某一天的空气质量
! U; ]* @- v7 Z- ]0 |使用LSTM模型
/ ~1 r' r; m# `2 @结果:( I! v" f6 S' \
Epoch 49/500 f7 x5 Z. H3 o8 }3 L0 u! c
0s - loss: 0.0144 - val_loss: 0.0133
$ a& I U' ]- I4 A$ Q9 F! [Epoch 50/50
! O( f/ ^4 |; t3 R! m0s - loss: 0.0144 - val_loss: 0.0133
) d/ d$ x+ b' f
5 \7 ^, H; s, q
% ?! n0 ^- o% |( @% g实验2:用前3天的天气数据,预测某一天的空气质量7 a4 h, T/ S' c3 o
使用LSTM模型
E& H7 `, b$ s4 U: b K1 N% I: N& W0 \: Z; l
/ `8 l& [% j% b/ N结果:$ K1 b. ^7 {1 ?- v
Epoch 49/50: r! N& K3 s9 h1 T/ I4 g
0s - loss: 0.0147 - val_loss: 0.0149" `% a" c2 ~2 J: y \4 x* D
Epoch 50/50, a1 X2 P# M% n; g! t, J
0s - loss: 0.0147 - val_loss: 0.01509 g+ D R( [6 Z8 M+ D& b
1 \* L. R: s- P
. M: z* L% {/ Z1 Q, \实验3:用前一天的天气数据,预测某一天的空气质量
$ j, r3 V# o6 z" f {' B% H使用普通的全连接模型 Dense()
5 p* }0 ~# C: `4 l+ e! p. o# | b* w结果:) }/ m" S O {' ^, D) [/ V) c
Epoch 49/50
$ u" ~9 G- q6 s0 X6 Z1 ` |2 _6 |' r0s - loss: 0.0144 - val_loss: 0.0146
! t J* K+ w; Q5 k% a/ zEpoch 50/50
; s% a2 ^$ R# w0 F! `* {0s - loss: 0.0148 - val_loss: 0.0151! i$ K+ |( h: V
3 ^* ~9 y2 F3 m* _, o
7 I8 @2 H2 T8 B3 m
实验4:用前三天的天气数据,预测某一天的空气质量
5 F& f) E: _9 R) W7 a- ?$ S使用普通的全连接模型 Dense()! v& q+ c7 X# B% R5 t
结果:
; H' r! `' D, P! yEpoch 49/50
! p" j- m" E. j, _ R6 P4 h F9 d0s - loss: 0.0150 - val_loss: 0.0165
2 v* G7 u" D: lEpoch 50/50
: {8 c# o1 b2 i% `. M6 L0s - loss: 0.0148 - val_loss: 0.0141
% M1 X# r$ q4 }+ p; B O. q' F3 w h* y& ^
6 q w( G- E# h R% y
实验5:用前一天的天气数据,预测某一天的空气质量$ b6 A; }$ u' L4 ?9 t
使用SimpleRNN
0 W: b* b0 g4 TEpoch 49/501 ~; U5 Q' N2 o% |0 B/ B: M# a9 ^
0s - loss: 0.0160 - val_loss: 0.0140
- J' D! D4 L2 [Epoch 50/50" i' Y1 \; V. y
0s - loss: 0.0147 - val_loss: 0.0150
# m" k7 b2 V: ~& e! |
3 @( I" y. L0 P5 [! D" q1 q9 B. I1 f- x5 m3 m
实验6:用前三天的天气数据,预测某一天的空气质量$ \/ ]2 `" w6 ~: e3 u- F( d
使用SimpleRNN6 b/ y( @) s) i" n, @
Epoch 49/50
8 X1 B) L( ^" b* S! K- W1 e$ ~0s - loss: 0.0164 - val_loss: 0.0233
$ A X- h% \$ T+ V/ d, i6 yEpoch 50/50
# n; B L; g* J+ u0s - loss: 0.0166 - val_loss: 0.0227
# e7 ~- `: y: Y9 g7 N0 RRNN和DNN的区别RNN中的循环是指一个序列当前的输出与前面的输出也有关系。也就是说,网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐层之间的节点不再是无连接的而是有连接的,并且隐层的输入不仅包括输入层的输出还包括上一时刻隐层的输出。
8 j) y8 R1 ~3 {# W* l- `# I4 i![]()
) d$ Y" x8 Y, p( X1 G$ [- I: f8 {, j# B M5 `, r+ J" G& g, C
RNN和LSTM的区别0 I3 X% I* t1 [, k
LSTM的内部结构通过门控状态来控制传输状态,记住需要长时间记忆的,忘记不重要的信息;而不像普通的RNN那样只能够“呆萌”地仅有一种记忆叠加方式。对很多需要“长期记忆”的任务来说,尤其好用。$ c, |; y+ ]! l1 f& `, J
8 E- | u- {% m" p9 g$ p( K5 @$ f2 B% E% B1 @: [
但也因为引入了很多内容,导致参数变多,也使得训练难度加大了很多。因此很多时候我们往往会使用效果和LSTM相当但参数更少的GRU来构建大训练量的模型。
7 p; p& x+ w, G: Z4 Y/ s' A1 O; k ' k( _% E5 G5 W, o7 B) g, h
- n: {9 {- ~' A% i1 ]' D
请关注数学中国微博和数学中国公众号,如有疑问联系数学中国工作人员- y: H. v9 i3 y# q) i
, q4 y( _2 _$ _' I5 |: E/ Q0 N4 h
( O' |- r' h" B
|
zan
|