查看: 10318|回复: 1

[国赛经验] python时间序列预测（ARIMA模型案例代码）

字体大小: 正常放大

326 主题	32 听众	1万积分

TA的每日心情

	慵懒 2020-7-12 09:52

签到天数: 116 天

[LV.6]常住居民II

管理员

群组: 2018教师培训（呼和浩

群组: 2017-05-04 量化投资实

群组: 2017“草原杯”夏令营

群组: 2018美赛冲刺培训

群组: 2017 田老师国赛冲刺课

电梯直达

1^#

发表于 2020-5-23 14:43 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

1、模型识别
01 主要的模型
AR（P）模型（Autoregressive Model）

自回归模型描述的是当前值与历史值之间的关系

MA（q）模型（Moving Average Model）
移动平均模型描述的是自回归部分的误差累计

ARIMA模型（Autoregressive Integrated Moving Average Model）

所谓ARIMA模型，是指将非平稳时间序列转化为平稳时间序列，然后将因变量仅对它的之后值以及随机误差项的现值和滞后值进行回归所建立的模型

Xt=自回归AR+移动平均MA模型

02 截尾和拖尾
（1）p阶自回归模型 AR(P)
AR(p)模型的偏自相关函数PACF在p阶之后应为零，称其具有截尾性；
AR(p)模型的自相关函数ACF不能在某一步之后为零（截尾），而是按指数衰减（或成正弦波形式)，称其具有拖尾性。

（2）q阶移动平均模型 MA(q)
MA(q)模型的自相关函数ACF在q阶之后应为零，称其具有截尾性；
MA(q)模型的偏自相关函数PACF不能在某一步之后为零（截尾），而是按指数衰减（或成正弦波形式)，称其具有拖尾性。

03 如何判断拖尾和截尾

（1）如果样本自相关系数（或偏自相关系数）在最初的d阶明显大于2倍标准差范围，而后几乎95%的样本自相关（偏自相关）系数都落在2倍标准差范围以内，而且由非零自相关（偏自相关）系数衰减为小值波动的过程非常突然，这时，通常视为自相关（偏自相关）系数截尾。

（2）如果有超过5%的样本相关系数落在2倍标准差范围以外，或者是由显著非零的相关函数衰减为小值波动的过程比较缓慢或者非常连续，这时，通常视为相关系数不截尾。

2、时间序列算法公式
重要的几种为：AR、MA、ARMA、ARIMA模型，具体公式见下图：

3、详细步骤
01 平稳性检验（adf检验）

#  a  时序图检验

根据平稳时间序列的均值和方差都为常数的性质，平稳序列的时序图显示该序列值始终在一个常熟附近随机波动，而且波动的范围有界；如果有明显的趋势性或者周期性，那他通常不是平稳序列

#  b 自相关图检验。

平稳序列具有短期相关性民政性质对平稳序列而言通常只有近期的序列值对现时值的影响比较明显，间隔越远的过去只对现时值得影响越小。随着延迟期数K的增加，平稳序列的自相关系数Pk（延迟K期）会比较快的衰减趋向于零，并在零附近随机波动，而非平稳序列的自相关系数衰减的速度比较慢，这就是利用自相关图进行平稳性检验的标准

#c 单位根检验

单位根检验是指检验序列中是否存在单位根，如果存在单位根就是非平稳时间序列了

# ADF单位根检验

其中第二中的ADF检验中，如果p值显著大于0.05，统计量化大于三个或者两个水平值，差距越大，越不平稳。

若统计量显著小于三个置信度且p值接近0，为平稳序列

其他情况，可能是数据量不够的原因没有展现趋势

02 对数据进行差分构造平稳序列
差分运算：

p阶差分

相聚一期的两个序列值之间的减法运算称为I阶差分运算

k步差分

相聚k期的两个序列值之间的减法运算称为k步chafenyunsuan

#差分后的结果
D_data = data.diff(k).dropna()

k 相距k时间

一般在一阶差分后就是比较平稳的序列

03 平稳性监测
04 白噪声检验
#白噪声检验
from statsmodels.stats.diagnostic import acorr_ljungbox

#返回统计量和p值

print(u'差分序列的白噪声检验结果为：', acorr_ljungbox(D_data, lags=1))  # 分别为stat值（统计量）和P值

# P值小于0.05，所以一阶差分后的序列为平稳非白噪声序列。

05 定阶
第一种方法人为识别

一阶差分后自相关图显示1阶截尾，

偏自相关显示托尾性，所以建立ARIMA（0,1,1）

第二种：相对最优模型识别

计算ARMA（p，q）。当p，q均小于所组合BIC信息量，取其中BIC信息量达到最小的模型阶数

确定pq值

from statsmodels.tsa.arima_model import ARIMA
#定阶

#一般阶数不超过length/10

pmax = int(len(D_data)/10)

#一般阶数不超过length/10

qmax = int(len(D_data)/10)

#bic矩阵

bic_matrix = []
for p in range(pmax+1):
  tmp = []
  for q in range(qmax+1):
#存在部分报错，所以用try来跳过报错。
try:
   tmp.append(ARIMA(data, (p,1,q)).fit().bic)
except:
   tmp.append(None)
  bic_matrix.append(tmp)

#从中可以找出最小值

bic_matrix = pandas.DataFrame(bic_matrix)

#先用stack展平，然后用idxmin找出最小值位置。

p,q = bic_matrix.stack().idxmin()

print(u'BIC最小的p值和q值为：%s、%s' %(p,q))

# 取BIC信息量达到最小的模型阶数，结果p为0，q为1，定阶完成。

06 模型预测

#建立ARIMA(0, 1, 1)模型

model = ARIMA(data, (p,1,q)).fit()

#给出一份模型报告

model.summary2()

#作为期5天的预测，返回预测结果、标准误差、置信区间。

model.forecast(5)

4、案例代码

import pandas

# 读取数据，指定日期为索引列

data = pandas.read_csv(
'D:\\DATA\\pycase\\number2\\9.3\\Data.csv' ,
index_col='日期'
)

# 绘图过程中

import  matplotlib.pyplot as plt

# 用来正常显示中文标签

plt.rcParams['font.sans-serif']=['SimHei']

# 用来正常显示负号

plt.rcParams['axes.unicode_minus'] = False

# 查看趋势图
data.plot() #有增长趋势，不平稳

# 附加：查看自相关系数合片自相关系数（查分之后），可以用于平稳性的检测，也可用于定阶系数预估

#自相关图（）

from statsmodels.graphics.tsaplots import plot_acf

plot_acf(data).show() #自相关图既不是拖尾也不是截尾。以上的图的自相关是一个三角对称的形式，这种趋势是单调趋势的典型图形，说明这个序列不是平稳序列

# 1 平稳性检测

from statsmodels.tsa.stattools import adfuller as ADF

def tagADF(t):
result = pandas.DataFrame(index=[
         "Test Statistic Value", "p-value", "Lags Used",
         "Number of Observations Used",
         "Critical Value(1%)", "Critical Value(5%)", "Critical Value(10%)"
      ], columns=['销量']
);
result['销量']['Test Statistic Value'] = t[0]
result['销量']['p-value'] = t[1]
result['销量']['Lags Used'] = t[2]
result['销量']['Number of Observations Used'] = t[3]
result['销量']['Critical Value(1%)'] = t[4]['1%']
result['销量']['Critical Value(5%)'] = t[4]['5%']
result['销量']['Critical Value(10%)'] = t[4]['10%']
return result;

print('原始序列的ADF检验结果为:',tagADF(ADF(data[u'销量'])))  # 添加标签后展现

# 平稳判断：得到统计量大于三个置信度(1%,5%,10%)临界统计值，p值显著大于0.05，该序列为非平稳序列。
# 备注：得到的统计量显著小于3个置信度（1%，5%，10%）的临界统计值时，为平稳此时p值接近于0 此处不为0，尝试增加数据量，原数据太少

# 2 进行数据差分，一般一阶差分就可以

D_data = data.diff(1).dropna()
D_data.columns = [u'销量差分']

#差分图趋势查看

D_data.plot()
plt.show()

# 附加：查看自相关系数合片自相关系数（查分之后），可以用于平稳性的检测，也可用于定阶系数预估

#自相关图

plot_acf(D_data).show()

plt.show()

#偏自相关图

from statsmodels.graphics.tsaplots import plot_pacf

plot_pacf(D_data).show()

# 3 平稳性检测

print(u'差分序列的ADF检验结果为：', tagADF(ADF(D_data[u'销量差分'])))

# 解释：Test Statistic Value值小于两个水平值，p值显著小于0.05，一阶差分后序列为平稳序列。

# 4 白噪声检验
from statsmodels.stats.diagnostic import acorr_ljungbox

#返回统计量和p值

print(u'差分序列的白噪声检验结果为：', acorr_ljungbox(D_data, lags=1))  # 分别为stat值（统计量）和P值

# P值小于0.05，所以一阶差分后的序列为平稳非白噪声序列。

# 5 p，q定阶

from statsmodels.tsa.arima_model import ARIMA

#一般阶数不超过length/10

pmax = int(len(D_data)/10)

#一般阶数不超过length/10

qmax = int(len(D_data)/10)

#bic矩阵

bic_matrix = []
for p in range(pmax+1):
  tmp = []
  for q in range(qmax+1):
#存在部分报错，所以用try来跳过报错。
try:
   tmp.append(ARIMA(data, (p,1,q)).fit().bic)
except:
   tmp.append(None)
  bic_matrix.append(tmp)

#从中可以找出最小值

bic_matrix = pandas.DataFrame(bic_matrix)

#先用stack展平，然后用idxmin找出最小值位置。

p,q = bic_matrix.stack().idxmin()

print(u'BIC最小的p值和q值为：%s、%s' %(p,q))
# 取BIC信息量达到最小的模型阶数，结果p为0，q为1，定阶完成。

# 6 建立模型和预测

model = ARIMA(data, (p,1,q)).fit()

#给出一份模型报告

model.summary2()

#作为期5天的预测，返回预测结果、标准误差、置信区间。

model.forecast(5)

————————————————
版权声明：本文为CSDN博主「UP Lee」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_36327687/article/details/85696152

zan