QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2353|回复: 0
打印 上一主题 下一主题

python实现 ARIMA 模型 及逐行解释

[复制链接]
字体大小: 正常 放大

1186

主题

4

听众

2922

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-20 10:01 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
ARIMA(Autoregressive Integrated Moving Average)模型是一种常用的时间序列分析方法,用于对时间序列数据建模和预测。它通过结合自回归(AR)和滑动平均(MA)模型的特性,并对序列进行差分(Integration,即I)来建立模型。
+ R6 q, I+ a! `3 o: w+ X- ?ARIMA模型的三个主要参数是p、d和q,分别对应于自回归、差分和滑动平均的阶数。
8 c0 z+ H/ ?3 f& ?4 N2 Z' u& b+ m8 t" K0 D( K  \1 v7 P
1.自回归(AR):自回归部分使用先前时间点的观测值来预测当前值。p参数表示自回归的阶数,即使用多少个先前时间点的值作为预测输入。
' U8 i( N3 e) I! v; ~; G2 w3 q# s2.差分(I):差分是对时间序列进行一阶或多阶的差分操作,可以消除序列的非平稳性。d参数表示差分的阶数,默认为1阶差分。
/ j; S; k1 M4 c3.滑动平均(MA):滑动平均部分使用先前的误差值来预测当前值。q参数表示滑动平均的阶数,即使用多少个先前的误差值作为预测输入。; |, J! F& T, \# {4 e' w' C
, ]4 C6 p  ], p5 ?; L  S1 B
ARIMA模型的一般表示形式为ARIMA(p, d, q),其中p、d和q是非负整数。它可以很好地处理具有线性趋势和季节性的时间序列数据。
& {9 l$ W+ B! r4 ?( X6 q9 ^
0 z2 c/ Y: H' C# T5 ~; p# Z6 q" w) q3 h% f6 C
4.确定时间序列数据的平稳性,如平稳性检验、观察序列的趋势和季节性等。
6 {2 _8 B7 s5 }0 U" |0 z/ R5.如果时间序列不平稳,进行差分操作以实现平稳性。3 K8 x6 z4 A# ^2 q7 y$ y. z
6.通过观察ACF和PACF图来确定p和q的合适取值范围。. x- N+ S$ v% S* {
7.根据AIC等准则,以不同的p、d、q值建立多个ARIMA模型。2 ]" D0 H* R4 V
8.对每个模型进行参数估计和模型拟合。
0 u- D5 @7 v0 k! P9.使用拟合的模型进行预测,并对模型的拟合效果进行评估。; q" @1 n3 R/ N$ E$ d! Q7 c8 Q4 B
" X2 M6 n+ X" i; |
ARIMA模型是时间序列分析领域中常用的模型之一,它可以用于预测未来趋势、季节性和周期性等时间序列数据的变化。在实际应用中,ARIMA模型可以被用于经济预测、股票市场分析、天气预测等各种领域。5 c9 p6 A3 p% \/ i2 g5 |; m
希望这个介绍对你有帮助。如果你还有任何问题,请随时提问。9 e  X( i- \2 l8 d, u3 O
import numpy as np
/ k2 ]! C6 Y: h5 }4 B" D# uimport pandas as pd
9 L( v4 c+ K% C) U" ], Nfrom statsmodels.tsa.arima_model import ARIMA, Q7 L! X. u2 G  `9 S- @9 x
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
( k/ _# @3 `4 n5 V" gimport matplotlib.pyplot as plt
- l6 N% R1 p( n# T- e' e2 c- e. i# E0 Q  Q& L+ L
这几行代码导入了所需的库,包括NumPy(用于数值计算)、Pandas(用于数据处理和分析)、statsmodels库中的ARIMA模型类和绘制时间序列图的函数,以及matplotlib用于绘图。5 r& P; K' u# `5 B3 B. R$ M7 Z- Q+ q
df = pd.DataFrame({
5 i7 I9 E$ @0 c! }5 X$ `# |    'year': [i for i in range(1980, 2011)],
6 ]! I, H$ |" l# ]% ?* x& I& X    'val': [0.82989428, 0.85951092, 0.87668916, 0.86670716, 0.932052,
( k0 C# K7 |" n( C7 O" }            1.04826364, 1.3111932, 1.63756228, 2.0641074, 1.91268276,
- k. J( `! {! h8 O            2.03544572, 2.17721128, 2.38968344, 2.75059208, 3.0906664,7 Y4 v$ Y' t3 {% `& x' H7 f% \
            3.42664028, 3.83064908, 3.97190864, 3.83160036, 4.143101,
% P3 ^: v3 y$ S8 g4 v2 Z: e            4.566551, 4.47541, 4.462796, 4.384829, 4.796861,
( q6 U5 G* Y9 @  s            5.046211, 5.098759, 5.196519, 5.166843, 5.174744,9 N% R& ?, V/ M  X% B
            5.440894],/ N, \7 R3 J+ p# [  i3 n4 U! [# n
})
, `2 I$ D# s0 I. h  F8 C2 ~2 Q* z7 `+ o- i8 k: I
这段代码定义了一个名为df的Pandas DataFrame,其中包含了两列数据:'year'和'val'。'year'列包含了从1980年到2010年的年份数据,'val'列包含了与每个年份对应的值。
6 X% d* d4 y' I1 d9 i$ S" ndf['val_diff1'] = df['val'].diff()" q! X" i) g8 F7 Q! b1 Q
plt.plot(df['year'], df['val'], label='origin')
- g% I: \8 i% `, t* _9 V9 A+ _plt.plot(df['year'], df['val_diff1'], label='diff1')4 J% r* n" t1 X, o6 x! E, w; ?
plt.legend()
8 a* T' U: y/ q  |& N. z) K7 b1 @3 z& D  a
这段代码将计算'val'列的一阶差分,并将结果存储在一个新的'valdiff1'列中。然后使用matplotlib绘制了两条线:一条是原始'val'列的线,另一条是差分后的'valdiff1'列的线。plt.legend()函数用于显示图例。
, S. m8 X; e9 Z/ c/ n9 Hplot_acf(df['val_diff1'][1:])3 z9 v: Z2 P) Q- d9 e

7 q" z5 u. C  R: ]3 F7 a  L+ g这行代码使用plot_acf函数绘制了一阶差分后的序列('val_diff1'列)的自相关函数(ACF)图。ACF图用于展示序列在不同滞后阶数的相关性。0 R' p3 b" A. p1 g+ w' i# s' f
plot_pacf(df['val_diff1'][1:], lags=14)
4 y+ `2 d' r( C& ]
. {+ z2 R% P; L  x) Y" S4 K- z这行代码使用plot_pacf函数绘制了一阶差分后的序列('val_diff1'列)的偏自相关函数(PACF)图。PACF图用于展示序列在不同滞后阶数的偏相关性,同时指定了lags=14参数,表示只展示14个滞后阶数的PACF值。
- o/ n" b! o, F$ H! I0 V5 }str_list = []3 N1 x2 M/ V) e# }
for p in range(1, 4):( a4 s+ A0 K+ b  f% n+ {* N+ ~
    for q in range(0, 4):
, v* o. ]$ q7 W1 [; z( t        model = ARIMA(df['val'], order=(p, 1, q))
6 f& V! J9 K7 M8 h* q% q# e0 @        res = model.fit(disp=0)
: _4 m/ ]4 Y  M, v" a        str_list.append('p = {}, q = {}, aic = {}'.format(p, q, res.aic))
5 @5 B# z. Y5 r2 ?  y1 }4 t" o7 ffor each in str_list:& ?: u( Q7 G1 L
    print(each)
" W7 o0 w9 ^: x2 ~- ?. Y" h  \4 T8 t8 G; c1 O8 w% U
这段代码使用嵌套的for循环,遍历p和q的取值范围,分别为1到3和0到3。在每次循环中,创建了一个ARIMA模型对象,并将p、1(表示一阶差分)、q作为参数传递给order参数。然后使用拟合方法(fit)将模型拟合到'val'列的数据中,得到拟合后的模型对象(res)。同时,计算并记录了模型的AIC值,并将其添加到字符串列表str_list中。最后,使用循环打印出每个p和q值对应的模型的AIC值。' H! F8 [; r/ b; j' ~$ ^9 u
model = ARIMA(df['val'], order=(2, 1, 0))
3 X6 X3 X) x3 ]4 a* `. d% W: [res = model.fit(disp=0)
7 f9 r! }9 g/ c1 V7 ~+ kres.summary(), u( J5 E, k# v- R5 {( V  g
( A# J3 E0 y( }# W; m
这部分代码创建了一个ARIMA模型对象,使用p=2、d=1(一阶差分)、q=0来进行参数配置。然后利用拟合方法将模型拟合到'val'列的数据中,得到拟合后的模型对象(res)。接下来,调用summary()方法打印出拟合后的模型的详细摘要信息,包括模型系数、标准误差、p值等。& |! j: e+ J% N- t
res.plot_predict(end=40): \8 F8 o1 J+ I& W

$ h8 w4 I& X0 r1 x  G; Y! E这行代码使用拟合后的模型(res)的plot_predict方法生成了一个预测图表。指定了end=40参数,表示要预测40个时间点。这个图表显示了原始数据和模型对未来值的预测。& q' i  d3 R5 j
希望这些解释可以帮助你理解代码的每一行。如果还有进一步的问题,请随时提问。, d8 g& o1 D+ {  G* \
) f7 {; M! z3 f8 A3 g

7 R, e. ~1 v; Z# @0 u; b

24.arima.py

1.51 KB, 下载次数: 0, 下载积分: 体力 -2 点

售价: 2 点体力  [记录]  [购买]

zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-4-10 11:42 , Processed in 0.424431 second(s), 55 queries .

回顶部