QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2354|回复: 0
打印 上一主题 下一主题

python实现 ARIMA 模型 及逐行解释

[复制链接]
字体大小: 正常 放大

1186

主题

4

听众

2922

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-20 10:01 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
ARIMA(Autoregressive Integrated Moving Average)模型是一种常用的时间序列分析方法,用于对时间序列数据建模和预测。它通过结合自回归(AR)和滑动平均(MA)模型的特性,并对序列进行差分(Integration,即I)来建立模型。! h' j  T0 k/ B" P- {
ARIMA模型的三个主要参数是p、d和q,分别对应于自回归、差分和滑动平均的阶数。
" j2 e9 ?1 K# ]* e; Y% P8 l8 M& r( c; S
1.自回归(AR):自回归部分使用先前时间点的观测值来预测当前值。p参数表示自回归的阶数,即使用多少个先前时间点的值作为预测输入。/ Q) n+ v+ q/ E. h/ ~7 L. [
2.差分(I):差分是对时间序列进行一阶或多阶的差分操作,可以消除序列的非平稳性。d参数表示差分的阶数,默认为1阶差分。
0 E3 x2 w" d- J7 M5 l' b3.滑动平均(MA):滑动平均部分使用先前的误差值来预测当前值。q参数表示滑动平均的阶数,即使用多少个先前的误差值作为预测输入。/ @( }2 t+ D7 w1 V0 F- E
/ ?4 ?6 l+ D; e5 c
ARIMA模型的一般表示形式为ARIMA(p, d, q),其中p、d和q是非负整数。它可以很好地处理具有线性趋势和季节性的时间序列数据。3 F- r* g8 Q7 }4 B
4 x3 J) N3 F' }  S& b

& U$ A6 m0 e% N! v6 Y0 i4.确定时间序列数据的平稳性,如平稳性检验、观察序列的趋势和季节性等。+ u1 L. {$ n7 l8 ]7 U1 B$ Z! y4 b" l
5.如果时间序列不平稳,进行差分操作以实现平稳性。7 d( w7 [* ^& N! J
6.通过观察ACF和PACF图来确定p和q的合适取值范围。3 k9 z; M5 q" N) \
7.根据AIC等准则,以不同的p、d、q值建立多个ARIMA模型。
9 }! P1 d( }/ g/ {, B6 w: e5 u8.对每个模型进行参数估计和模型拟合。
! ]3 E) z  }8 P8 w% I9 l9.使用拟合的模型进行预测,并对模型的拟合效果进行评估。
! I" u' ?; R" s7 _/ W; U9 ]5 H) ~5 I/ }1 }  C
ARIMA模型是时间序列分析领域中常用的模型之一,它可以用于预测未来趋势、季节性和周期性等时间序列数据的变化。在实际应用中,ARIMA模型可以被用于经济预测、股票市场分析、天气预测等各种领域。4 g/ e  `* M- z
希望这个介绍对你有帮助。如果你还有任何问题,请随时提问。& B2 I4 W( U- l8 L$ {* N+ k. P
import numpy as np3 z- K3 R' e9 T2 I
import pandas as pd
- R# I7 W# s0 r$ J1 jfrom statsmodels.tsa.arima_model import ARIMA; t& S6 V# N) H7 p* C  g( W5 n8 o3 V
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf  K2 J8 ?) N% o! c8 ?( h# ?- F
import matplotlib.pyplot as plt
; e  E7 N' [4 k. f4 Z" J: k, x: n- {3 E
这几行代码导入了所需的库,包括NumPy(用于数值计算)、Pandas(用于数据处理和分析)、statsmodels库中的ARIMA模型类和绘制时间序列图的函数,以及matplotlib用于绘图。
0 V/ d0 z+ v) ~8 Gdf = pd.DataFrame({! I  F% }0 j8 u+ L1 A
    'year': [i for i in range(1980, 2011)],
/ V% P* m. c1 g3 G# Z! e. P- g: _    'val': [0.82989428, 0.85951092, 0.87668916, 0.86670716, 0.932052,
5 k7 F5 \- l& J( Z7 K            1.04826364, 1.3111932, 1.63756228, 2.0641074, 1.91268276,
" m( O2 Q' s9 T# p3 r: q, s% ]            2.03544572, 2.17721128, 2.38968344, 2.75059208, 3.0906664,1 c: I+ S- u2 N& G" S% [3 Z! W: o
            3.42664028, 3.83064908, 3.97190864, 3.83160036, 4.143101,
# ^1 R7 b$ ~8 w& }            4.566551, 4.47541, 4.462796, 4.384829, 4.796861,
& X, R3 `: x" B/ z" |            5.046211, 5.098759, 5.196519, 5.166843, 5.174744,9 A+ P) u# D. x' o. T- z5 c4 s5 P% M
            5.440894],
. t) c9 V4 x6 }9 t9 G})  \5 U' O7 T* y  E" g5 f1 s

6 v) _$ Z! ^% J- r# [0 k; o8 \8 T这段代码定义了一个名为df的Pandas DataFrame,其中包含了两列数据:'year'和'val'。'year'列包含了从1980年到2010年的年份数据,'val'列包含了与每个年份对应的值。9 m/ S) r- Z3 M; i' q3 t( B" A
df['val_diff1'] = df['val'].diff()
" O, g$ |! ?( oplt.plot(df['year'], df['val'], label='origin')
/ P% _  E9 q5 o# p, H  Gplt.plot(df['year'], df['val_diff1'], label='diff1'). s7 e, k6 H7 }) `( i5 y  L
plt.legend()
$ Q" x- O0 t# w+ z( a% E! r& \) L6 y# ?4 R# j6 U. U0 B
这段代码将计算'val'列的一阶差分,并将结果存储在一个新的'valdiff1'列中。然后使用matplotlib绘制了两条线:一条是原始'val'列的线,另一条是差分后的'valdiff1'列的线。plt.legend()函数用于显示图例。% N  Z; x. _$ y$ N
plot_acf(df['val_diff1'][1:])
9 j( T) Y" M! c, Y  F4 s! j- M6 x# L' i. u- c7 [( `
这行代码使用plot_acf函数绘制了一阶差分后的序列('val_diff1'列)的自相关函数(ACF)图。ACF图用于展示序列在不同滞后阶数的相关性。
9 c2 \0 ^# [9 \. x; zplot_pacf(df['val_diff1'][1:], lags=14)- {8 v! o6 u$ [, w; n, l+ @

; i+ [2 F0 O+ _) ]这行代码使用plot_pacf函数绘制了一阶差分后的序列('val_diff1'列)的偏自相关函数(PACF)图。PACF图用于展示序列在不同滞后阶数的偏相关性,同时指定了lags=14参数,表示只展示14个滞后阶数的PACF值。3 X, ]* A6 G2 l. {. H0 \# u
str_list = []
1 h5 f4 b0 O$ ?$ @' n4 W9 [% xfor p in range(1, 4):0 M( C; o$ Q( E% k7 x4 R
    for q in range(0, 4):
9 O8 a" Z2 t- ]. }        model = ARIMA(df['val'], order=(p, 1, q))3 Z/ A. |, y2 h" ~) l) [4 P
        res = model.fit(disp=0)
2 ~3 K+ I& }8 @+ g/ A1 o+ L        str_list.append('p = {}, q = {}, aic = {}'.format(p, q, res.aic))
: t4 T7 \7 A2 c3 G: zfor each in str_list:
2 X1 v! h. J0 O9 R% c! I    print(each)0 S* m/ Y8 q0 M# H4 V2 Q

7 X5 C" w" A+ ^4 ?. F. T% P8 k这段代码使用嵌套的for循环,遍历p和q的取值范围,分别为1到3和0到3。在每次循环中,创建了一个ARIMA模型对象,并将p、1(表示一阶差分)、q作为参数传递给order参数。然后使用拟合方法(fit)将模型拟合到'val'列的数据中,得到拟合后的模型对象(res)。同时,计算并记录了模型的AIC值,并将其添加到字符串列表str_list中。最后,使用循环打印出每个p和q值对应的模型的AIC值。  u; v& Z: Q+ Q; P/ h
model = ARIMA(df['val'], order=(2, 1, 0))$ Q: w7 Q9 m7 J8 G  n
res = model.fit(disp=0)
. M% b, _3 U4 c7 i! S6 d6 S! Vres.summary()
8 \- i5 x0 U( k8 h: Q& b9 k; v5 j7 `- e4 S/ u4 k& l; f. L. x# u8 D
这部分代码创建了一个ARIMA模型对象,使用p=2、d=1(一阶差分)、q=0来进行参数配置。然后利用拟合方法将模型拟合到'val'列的数据中,得到拟合后的模型对象(res)。接下来,调用summary()方法打印出拟合后的模型的详细摘要信息,包括模型系数、标准误差、p值等。
9 L2 k- a( {. t: _' Jres.plot_predict(end=40)2 g. l- j) a0 i+ V

% m0 V9 K% x$ m* B% `: B这行代码使用拟合后的模型(res)的plot_predict方法生成了一个预测图表。指定了end=40参数,表示要预测40个时间点。这个图表显示了原始数据和模型对未来值的预测。
" x* z, X) r( m; J" j( m希望这些解释可以帮助你理解代码的每一行。如果还有进一步的问题,请随时提问。3 s, M+ d3 ?: \) ?: x
( z1 m" a* h3 w6 C3 {  \4 u8 G
1 y* M" B4 P$ p" o6 D6 A

24.arima.py

1.51 KB, 下载次数: 0, 下载积分: 体力 -2 点

售价: 2 点体力  [记录]  [购买]

zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-4-10 15:28 , Processed in 0.640176 second(s), 54 queries .

回顶部