查看: 2419|回复: 0

python实现 ARIMA 模型及逐行解释

字体大小: 正常放大

1189 主题	4 听众	2934 积分

该用户从未签到

电梯直达

1^#

发表于 2024-3-20 10:01 |只看该作者 |正序浏览

|招呼Ta 关注Ta

ARIMA（Autoregressive Integrated Moving Average）模型是一种常用的时间序列分析方法，用于对时间序列数据建模和预测。它通过结合自回归（AR）和滑动平均（MA）模型的特性，并对序列进行差分（Integration，即I）来建立模型。
ARIMA模型的三个主要参数是p、d和q，分别对应于自回归、差分和滑动平均的阶数。

1.自回归（AR）：自回归部分使用先前时间点的观测值来预测当前值。p参数表示自回归的阶数，即使用多少个先前时间点的值作为预测输入。
2.差分（I）：差分是对时间序列进行一阶或多阶的差分操作，可以消除序列的非平稳性。d参数表示差分的阶数，默认为1阶差分。
3.滑动平均（MA）：滑动平均部分使用先前的误差值来预测当前值。q参数表示滑动平均的阶数，即使用多少个先前的误差值作为预测输入。

ARIMA模型的一般表示形式为ARIMA(p, d, q)，其中p、d和q是非负整数。它可以很好地处理具有线性趋势和季节性的时间序列数据。

4.确定时间序列数据的平稳性，如平稳性检验、观察序列的趋势和季节性等。
5.如果时间序列不平稳，进行差分操作以实现平稳性。
6.通过观察ACF和PACF图来确定p和q的合适取值范围。
7.根据AIC等准则，以不同的p、d、q值建立多个ARIMA模型。
8.对每个模型进行参数估计和模型拟合。
9.使用拟合的模型进行预测，并对模型的拟合效果进行评估。

ARIMA模型是时间序列分析领域中常用的模型之一，它可以用于预测未来趋势、季节性和周期性等时间序列数据的变化。在实际应用中，ARIMA模型可以被用于经济预测、股票市场分析、天气预测等各种领域。
希望这个介绍对你有帮助。如果你还有任何问题，请随时提问。
import numpy as np
import pandas as pd
from statsmodels.tsa.arima_model import ARIMA
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
import matplotlib.pyplot as plt

这几行代码导入了所需的库，包括NumPy（用于数值计算）、Pandas（用于数据处理和分析）、statsmodels库中的ARIMA模型类和绘制时间序列图的函数，以及matplotlib用于绘图。
df = pd.DataFrame({
'year': [i for i in range(1980, 2011)],
'val': [0.82989428, 0.85951092, 0.87668916, 0.86670716, 0.932052,
         1.04826364, 1.3111932, 1.63756228, 2.0641074, 1.91268276,
         2.03544572, 2.17721128, 2.38968344, 2.75059208, 3.0906664,
         3.42664028, 3.83064908, 3.97190864, 3.83160036, 4.143101,
         4.566551, 4.47541, 4.462796, 4.384829, 4.796861,
         5.046211, 5.098759, 5.196519, 5.166843, 5.174744,
         5.440894],
})

这段代码定义了一个名为df的Pandas DataFrame，其中包含了两列数据：'year'和'val'。'year'列包含了从1980年到2010年的年份数据，'val'列包含了与每个年份对应的值。
df['val_diff1'] = df['val'].diff()
plt.plot(df['year'], df['val'], label='origin')
plt.plot(df['year'], df['val_diff1'], label='diff1')
plt.legend()

这段代码将计算'val'列的一阶差分，并将结果存储在一个新的'valdiff1'列中。然后使用matplotlib绘制了两条线：一条是原始'val'列的线，另一条是差分后的'valdiff1'列的线。plt.legend()函数用于显示图例。
plot_acf(df['val_diff1'][1:])

这行代码使用plot_acf函数绘制了一阶差分后的序列（'val_diff1'列）的自相关函数（ACF）图。ACF图用于展示序列在不同滞后阶数的相关性。
plot_pacf(df['val_diff1'][1:], lags=14)

这行代码使用plot_pacf函数绘制了一阶差分后的序列（'val_diff1'列）的偏自相关函数（PACF）图。PACF图用于展示序列在不同滞后阶数的偏相关性，同时指定了lags=14参数，表示只展示14个滞后阶数的PACF值。
str_list = []
for p in range(1, 4):
for q in range(0, 4):
      model = ARIMA(df['val'], order=(p, 1, q))
      res = model.fit(disp=0)
      str_list.append('p = {}, q = {}, aic = {}'.format(p, q, res.aic))
for each in str_list:
print(each)

这段代码使用嵌套的for循环，遍历p和q的取值范围，分别为1到3和0到3。在每次循环中，创建了一个ARIMA模型对象，并将p、1（表示一阶差分）、q作为参数传递给order参数。然后使用拟合方法（fit）将模型拟合到'val'列的数据中，得到拟合后的模型对象（res）。同时，计算并记录了模型的AIC值，并将其添加到字符串列表str_list中。最后，使用循环打印出每个p和q值对应的模型的AIC值。
model = ARIMA(df['val'], order=(2, 1, 0))
res = model.fit(disp=0)
res.summary()

这部分代码创建了一个ARIMA模型对象，使用p=2、d=1（一阶差分）、q=0来进行参数配置。然后利用拟合方法将模型拟合到'val'列的数据中，得到拟合后的模型对象（res）。接下来，调用summary()方法打印出拟合后的模型的详细摘要信息，包括模型系数、标准误差、p值等。
res.plot_predict(end=40)

这行代码使用拟合后的模型（res）的plot_predict方法生成了一个预测图表。指定了end=40参数，表示要预测40个时间点。这个图表显示了原始数据和模型对未来值的预测。
希望这些解释可以帮助你理解代码的每一行。如果还有进一步的问题，请随时提问。