自回归积分滑动平均模型(ARIMA)的原理与时间序列预测过程
字数 2233 2025-12-09 17:22:37
自回归积分滑动平均模型(ARIMA)的原理与时间序列预测过程
题目描述
自回归积分滑动平均模型(ARIMA, Autoregressive Integrated Moving Average)是一种经典的时间序列预测方法。它结合了自回归(AR)、差分(I) 和移动平均(MA) 三个部分,用于对非平稳时间序列进行建模和预测。本题将详细讲解ARIMA模型的核心原理、模型结构、参数估计方法,以及如何利用该模型进行时间序列预测的完整过程。
解题过程
第一步:理解时间序列的平稳性
- 核心概念:ARIMA模型要求时间序列是平稳的,即序列的统计特性(如均值、方差)不随时间变化。非平稳序列通常表现出趋势或季节性。
- 平稳化方法:通过差分消除趋势。一阶差分定义为 Δy_t = y_t - y_{t-1},其中 y_t 是 t 时刻的观测值。若仍不平稳,可进行更高阶差分(d 阶)。差分运算就是ARIMA中“I”部分的含义。
第二步:认识ARIMA模型的三个组成部分
ARIMA(p, d, q) 模型由三个参数定义:
- p(自回归阶数):表示当前值 y_t 与过去 p 个历史值(y_{t-1}, ..., y_{t-p})的线性关系。
- d(差分阶数):使原始序列变为平稳序列所需的差分次数。
- q(移动平均阶数):表示当前值 y_t 与过去 q 个历史随机误差(ε_{t-1}, ..., ε_{t-q})的线性关系。
模型的一般形式为:
(1 - B)^d y_t = c + Σ_{i=1}^{p} φ_i y_{t-i} + ε_t + Σ_{j=1}^{q} θ_j ε_{t-j}
其中:
- B 是滞后算子(By_t = y_{t-1})。
- (1 - B)^d 表示 d 阶差分运算。
- c 是常数项。
- φ_i 是自回归系数。
- θ_j 是移动平均系数。
- ε_t 是白噪声误差项,服从均值为0、方差为常数的独立同分布。
第三步:ARIMA模型的构建与参数估计流程
- 平稳性检验:绘制时间序列图观察趋势,并使用增广迪基-富勒检验(ADF Test) 等统计检验判断平稳性。若p值大于显著性水平(如0.05),则序列非平稳。
- 差分确定d:对非平稳序列进行差分,直至ADF检验表明序列平稳。差分的次数即为 d。
- 确定p和q:
- 观察自相关函数(ACF)图和偏自相关函数(PACF)图。
- ACF图:描述 y_t 与 y_{t-k} 的相关性。MA(q) 模型的ACF在滞后 q 后“截尾”(迅速趋近于0)。
- PACF图:在控制中间滞后项的影响后,描述 y_t 与 y_{t-k} 的相关性。AR(p) 模型的PACF在滞后 p 后“截尾”。
- 通过观察截尾点,可初步估计 p 和 q。
- 参数估计:使用最大似然估计(MLE) 或条件最小二乘法估计系数 φ_i 和 θ_j。这通常通过统计软件(如Python的statsmodels库)的优化算法(如牛顿-拉弗森法)完成。
- 模型检验:
- 残差诊断:拟合模型后,检查残差序列是否近似为白噪声(无自相关)。可通过Ljung-Box检验检验残差的自相关性,理想情况p值应大于显著性水平。
- 信息准则:可使用赤池信息准则(AIC) 或贝叶斯信息准则(BIC) 比较不同(p, d, q)组合的模型,选择AIC/BIC值最小的模型。
第四步:利用ARIMA模型进行预测
假设我们已拟合好ARIMA(p, d, q)模型,参数已知。预测未来 k 步的值 y_{T+k}(T是最后观测时刻):
- 将模型改写为差分后序列的方程:令 w_t = (1 - B)^d y_t,则模型为 w_t = c + Σ_{i=1}^{p} φ_i w_{t-i} + ε_t + Σ_{j=1}^{q} θ_j ε_{t-j}。
- 计算点预测:
- 对于未来时刻 T+k,其预测值 ŷ_{T+k} 依赖于历史观测值 y_{1},..., y_T 和已估计的误差 ε_{1},..., ε_T。
- 采用递归预测:
a. 首先预测 w_{T+1}:ŵ_{T+1} = c + Σ_{i=1}^{p} φ_i w_{T+1-i} + Σ_{j=1}^{q} θ_j ε_{T+1-j}。其中,w_{T+1-i} 和 ε_{T+1-j} 在 i, j ≤ 0 时用其观测值或预测值代入,>0 时用其预测值(对 ε 未来值通常设为0)。
b. 然后通过差分运算的逆过程得到 ŷ_{T+1}。例如,若 d=1,则 ŷ_{T+1} = y_T + ŵ_{T+1}。
c. 重复此过程,依次计算 ŷ_{T+2}, ŷ_{T+3}, ..., ŷ_{T+k}。
- 计算预测区间:基于模型残差的方差和预测误差的传播,可计算出未来值的置信区间(如95%置信区间),量化预测的不确定性。
总结
ARIMA模型通过差分处理非平稳性,结合自回归和移动平均捕捉序列的依赖结构。其应用流程包括:检验平稳性、差分确定d、利用ACF/PACF图初选p和q、参数估计、模型诊断,最终进行递归预测。该模型是处理无季节性趋势时间序列的基础工具,其扩展模型(如SARIMA)还可处理季节性模式。