数学建模社区-数学中国

标题: python实现 ARIMA 模型 及逐行解释 [打印本页]

作者: 2744557306    时间: 2024-3-20 10:01
标题: python实现 ARIMA 模型 及逐行解释
ARIMA(Autoregressive Integrated Moving Average)模型是一种常用的时间序列分析方法,用于对时间序列数据建模和预测。它通过结合自回归(AR)和滑动平均(MA)模型的特性,并对序列进行差分(Integration,即I)来建立模型。+ _: x, O6 g) `: |% b3 I
ARIMA模型的三个主要参数是p、d和q,分别对应于自回归、差分和滑动平均的阶数。
/ c/ l1 R8 e/ |' f$ `& e* o0 J( w1 o$ Z% I% ~
1.自回归(AR):自回归部分使用先前时间点的观测值来预测当前值。p参数表示自回归的阶数,即使用多少个先前时间点的值作为预测输入。3 e" Z' E% I  Q4 n% e/ L- H$ G9 o
2.差分(I):差分是对时间序列进行一阶或多阶的差分操作,可以消除序列的非平稳性。d参数表示差分的阶数,默认为1阶差分。' ^4 Y2 E: j$ {6 @+ w7 A4 _! V7 u
3.滑动平均(MA):滑动平均部分使用先前的误差值来预测当前值。q参数表示滑动平均的阶数,即使用多少个先前的误差值作为预测输入。
% D5 Z- T/ A, C8 `" ^$ n+ T  L$ P1 h6 H: y: g+ C9 ^
ARIMA模型的一般表示形式为ARIMA(p, d, q),其中p、d和q是非负整数。它可以很好地处理具有线性趋势和季节性的时间序列数据。) M& [- k% K" `* P* R, Z8 p8 E
$ B+ @8 ~$ l$ C1 ?7 X$ t

% Z- y( \7 N3 E+ W4.确定时间序列数据的平稳性,如平稳性检验、观察序列的趋势和季节性等。2 c% M& c) R. m5 w7 `0 L. h) V) ~
5.如果时间序列不平稳,进行差分操作以实现平稳性。* _& y$ s7 @  x
6.通过观察ACF和PACF图来确定p和q的合适取值范围。
/ N7 J7 X8 W5 G5 H9 l5 z3 ]; x4 T7.根据AIC等准则,以不同的p、d、q值建立多个ARIMA模型。) O' l6 T4 t6 \/ H6 ^
8.对每个模型进行参数估计和模型拟合。$ X. f) D4 X2 E
9.使用拟合的模型进行预测,并对模型的拟合效果进行评估。, A0 ~# k5 h* f3 ]7 y  d

- c3 u: Z0 p: k. Z, f3 d: xARIMA模型是时间序列分析领域中常用的模型之一,它可以用于预测未来趋势、季节性和周期性等时间序列数据的变化。在实际应用中,ARIMA模型可以被用于经济预测、股票市场分析、天气预测等各种领域。' B7 j* E( s; _7 J  t0 \0 Z9 l  V
希望这个介绍对你有帮助。如果你还有任何问题,请随时提问。
5 U2 a3 `3 @' i, u. iimport numpy as np
( C0 w  h/ Z& f+ ]9 Timport pandas as pd% [# K6 ?+ @. n3 E. b
from statsmodels.tsa.arima_model import ARIMA
  O0 H( G6 B) s7 m: T3 p  D2 `from statsmodels.graphics.tsaplots import plot_acf, plot_pacf- Q, Y0 }. q0 @& V; l0 D
import matplotlib.pyplot as plt
. g& M4 c/ C3 {% Y' r* [( Z8 v4 @7 o% p; \& ~( i  V
这几行代码导入了所需的库,包括NumPy(用于数值计算)、Pandas(用于数据处理和分析)、statsmodels库中的ARIMA模型类和绘制时间序列图的函数,以及matplotlib用于绘图。
. [6 q1 B* \, L( X. P9 B7 idf = pd.DataFrame({
$ ~* H" W9 ^; K# G! T7 n    'year': [i for i in range(1980, 2011)],
9 B% o7 f! q6 X" h    'val': [0.82989428, 0.85951092, 0.87668916, 0.86670716, 0.932052,
; }+ L- P* k, U0 D2 c; c1 f: }            1.04826364, 1.3111932, 1.63756228, 2.0641074, 1.91268276,5 Z( t5 J  F7 u0 G9 \" b% c
            2.03544572, 2.17721128, 2.38968344, 2.75059208, 3.0906664,; `( T; F" t0 R0 e) a* P
            3.42664028, 3.83064908, 3.97190864, 3.83160036, 4.143101,) c2 b. ~; n" l4 l! t  h- e
            4.566551, 4.47541, 4.462796, 4.384829, 4.796861,! Z6 o0 M  Y) Y. y4 V4 H/ x
            5.046211, 5.098759, 5.196519, 5.166843, 5.174744,
/ k$ I2 |1 I% Q            5.440894],  |  _8 r# V: h. @. O  U
})' H. k. U) y/ w  }8 H8 N
( S( \5 y5 h8 x6 z3 S2 @5 `5 t6 i
这段代码定义了一个名为df的Pandas DataFrame,其中包含了两列数据:'year'和'val'。'year'列包含了从1980年到2010年的年份数据,'val'列包含了与每个年份对应的值。
5 D8 B! S$ A- @, |0 }df['val_diff1'] = df['val'].diff()$ C+ O. w. }2 T2 q7 Z& [
plt.plot(df['year'], df['val'], label='origin'): @3 X" h0 q  O: _9 L) Y
plt.plot(df['year'], df['val_diff1'], label='diff1')% Q, N* u; s0 F3 ?* a% R) O
plt.legend()' ^/ r0 h5 u  |' T  q

' T) N) V8 Y- J/ [% x这段代码将计算'val'列的一阶差分,并将结果存储在一个新的'valdiff1'列中。然后使用matplotlib绘制了两条线:一条是原始'val'列的线,另一条是差分后的'valdiff1'列的线。plt.legend()函数用于显示图例。+ T4 m2 T# O: V
plot_acf(df['val_diff1'][1:])3 Q6 z% }# N8 a, U+ s

- \$ {; K7 x3 N/ U) ~& J9 b* x这行代码使用plot_acf函数绘制了一阶差分后的序列('val_diff1'列)的自相关函数(ACF)图。ACF图用于展示序列在不同滞后阶数的相关性。2 V7 D; T5 k3 n4 @8 z$ J! ]
plot_pacf(df['val_diff1'][1:], lags=14)/ a0 R( ~8 F* f  Q7 O% Y& J
! L1 z6 T4 s# Z9 ^
这行代码使用plot_pacf函数绘制了一阶差分后的序列('val_diff1'列)的偏自相关函数(PACF)图。PACF图用于展示序列在不同滞后阶数的偏相关性,同时指定了lags=14参数,表示只展示14个滞后阶数的PACF值。
( n6 p) z& b  B/ pstr_list = []
: k- |: B3 _1 gfor p in range(1, 4):
0 u; f! f! Y, x7 \& m9 y+ F# P    for q in range(0, 4):
+ E$ A. L( t! s. ]" a        model = ARIMA(df['val'], order=(p, 1, q))
* `4 p+ S) O/ B0 A        res = model.fit(disp=0)+ y$ u1 ?5 m4 L7 U; d7 _
        str_list.append('p = {}, q = {}, aic = {}'.format(p, q, res.aic))
5 S+ G% P- V) V) Ffor each in str_list:
) q* D! H5 L. h  s    print(each)
1 E7 z) y4 q4 U! q; g% ~  J$ Q: W# b! y2 U8 q
这段代码使用嵌套的for循环,遍历p和q的取值范围,分别为1到3和0到3。在每次循环中,创建了一个ARIMA模型对象,并将p、1(表示一阶差分)、q作为参数传递给order参数。然后使用拟合方法(fit)将模型拟合到'val'列的数据中,得到拟合后的模型对象(res)。同时,计算并记录了模型的AIC值,并将其添加到字符串列表str_list中。最后,使用循环打印出每个p和q值对应的模型的AIC值。
2 L/ O2 j% f: J# A+ a& ^9 |. Vmodel = ARIMA(df['val'], order=(2, 1, 0))
7 y6 Z7 ?! h( x* R- [0 {res = model.fit(disp=0)" p8 m0 s' @& t4 c; z
res.summary()- r/ H  ~* g' y2 _9 l

9 J: H' w" {- o: y2 A7 m这部分代码创建了一个ARIMA模型对象,使用p=2、d=1(一阶差分)、q=0来进行参数配置。然后利用拟合方法将模型拟合到'val'列的数据中,得到拟合后的模型对象(res)。接下来,调用summary()方法打印出拟合后的模型的详细摘要信息,包括模型系数、标准误差、p值等。% b" r6 C( L: l
res.plot_predict(end=40)5 x- {- O1 _0 P3 \8 J; n$ ?* N

7 m$ T1 A! y5 G# R2 O5 V这行代码使用拟合后的模型(res)的plot_predict方法生成了一个预测图表。指定了end=40参数,表示要预测40个时间点。这个图表显示了原始数据和模型对未来值的预测。* W0 \/ c) v1 d# L0 w$ @3 }
希望这些解释可以帮助你理解代码的每一行。如果还有进一步的问题,请随时提问。
$ h0 F6 O% P; a4 X* `- r$ z: S% |  N& t& a" H" s% k

7 c- G/ ]" B6 K* p

24.arima.py

1.51 KB, 下载次数: 0, 下载积分: 体力 -2 点

售价: 2 点体力  [记录]  [购买]






欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5