高斯过程回归(Gaussian Process Regression, GPR)的预测分布计算过程
题目描述
高斯过程回归是一种基于贝叶斯推断的非参数回归方法,它通过定义函数空间上的高斯过程先验,直接对未知函数进行建模。给定一组带噪声的观测数据,GPR的目标是计算新输入点对应的函数值的后验预测分布。本题要求详细解释GPR中预测分布的推导过程,包括先验设置、后验计算的关键公式,以及如何通过核函数控制函数的平滑性和不确定性。
解题过程
- 高斯过程先验定义
- 高斯过程是无限维随机变量的集合,任意有限个随机变量服从联合高斯分布。它由均值函数 \(m(\mathbf{x})\) 和协方差函数(核函数)\(k(\mathbf{x}, \mathbf{x}')\) 完全指定:
\[ f(\mathbf{x}) \sim \mathcal{GP}(m(\mathbf{x}), k(\mathbf{x}, \mathbf{x}')). \]
- 通常假设先验均值函数为零(即 \(m(\mathbf{x}) = 0\)),简化计算而不失一般性。核函数的选择(如径向基函数RBF)决定了函数的平滑性和周期性等性质。
- 训练数据与噪声假设
- 设训练集为 \(\mathbf{X} = \{\mathbf{x}_1, \dots, \mathbf{x}_n\}\) 和观测值 \(\mathbf{y} = [y_1, \dots, y_n]^\top\),观测值与真实函数值的关系为:
\[ y_i = f(\mathbf{x}_i) + \epsilon_i, \quad \epsilon_i \sim \mathcal{N}(0, \sigma_n^2), \]
其中 $ \sigma_n^2 $ 是观测噪声的方差。因此,观测值 $ \mathbf{y} $ 的协方差矩阵为 $ \mathbf{K} + \sigma_n^2 \mathbf{I} $,其中 $ \mathbf{K} $ 是训练点之间的核矩阵,$ K_{ij} = k(\mathbf{x}_i, \mathbf{x}_j) $。
- 联合分布与后验推导
- 对于新测试点 \(\mathbf{X}_*\),训练点和测试点的函数值 \(\mathbf{f}\) 和 \(\mathbf{f}_*\) 的联合先验分布为:
\[ \begin{bmatrix} \mathbf{y} \\ \mathbf{f}_* \end{bmatrix} \sim \mathcal{N} \left( \mathbf{0}, \begin{bmatrix} \mathbf{K}(\mathbf{X}, \mathbf{X}) + \sigma_n^2 \mathbf{I} & \mathbf{K}(\mathbf{X}, \mathbf{X}_*) \\ \mathbf{K}(\mathbf{X}_*, \mathbf{X}) & \mathbf{K}(\mathbf{X}_*, \mathbf{X}_*) \end{bmatrix} \right), \]
其中 $ \mathbf{K}(\mathbf{X}, \mathbf{X}_*) $ 是训练点与测试点之间的核矩阵。
- 利用联合高斯分布的条件分布公式,后验预测分布 \(p(\mathbf{f}_* | \mathbf{X}_*, \mathbf{X}, \mathbf{y})\) 为高斯分布:
\[ \mathbf{f}_* | \mathbf{X}_*, \mathbf{X}, \mathbf{y} \sim \mathcal{N}(\boldsymbol{\mu}_*, \boldsymbol{\Sigma}_*), \]
其均值和协方差矩阵为:
\[ \boldsymbol{\mu}_* = \mathbf{K}(\mathbf{X}_*, \mathbf{X}) \left[ \mathbf{K}(\mathbf{X}, \mathbf{X}) + \sigma_n^2 \mathbf{I} \right]^{-1} \mathbf{y}, \]
\[ \boldsymbol{\Sigma}_* = \mathbf{K}(\mathbf{X}_*, \mathbf{X}_*) - \mathbf{K}(\mathbf{X}_*, \mathbf{X}) \left[ \mathbf{K}(\mathbf{X}, \mathbf{X}) + \sigma_n^2 \mathbf{I} \right]^{-1} \mathbf{K}(\mathbf{X}, \mathbf{X}_*). \]
-
预测分布的物理意义
- 后验均值 \(\boldsymbol{\mu}_*\) 是训练数据加权组合的线性函数,权重由核函数决定,体现了相似输入产生相似输出的假设。
- 后验协方差 \(\boldsymbol{\Sigma}_*\) 由先验协方差减去一项修正项,修正项反映了训练数据对不确定性的减少:测试点靠近训练数据时,方差较小;远离时,方差接近先验值。
-
计算实现与核函数选择
- 实际计算中需对矩阵 \(\mathbf{K}(\mathbf{X}, \mathbf{X}) + \sigma_n^2 \mathbf{I}\) 求逆,通常使用Cholesky分解保证数值稳定性。
- 核函数超参数(如RBF的长度尺度)可通过最大化边缘似然函数优化:
\[ \log p(\mathbf{y} | \mathbf{X}) = -\frac{1}{2} \mathbf{y}^\top (\mathbf{K} + \sigma_n^2 \mathbf{I})^{-1} \mathbf{y} - \frac{1}{2} \log |\mathbf{K} + \sigma_n^2 \mathbf{I}| - \frac{n}{2} \log 2\pi. \]
总结
高斯过程回归通过贝叶斯框架将函数建模为随机过程,其预测分布不仅给出点估计,还量化了不确定性。核心步骤是利用联合高斯分布的性质推导后验闭式解,计算效率依赖于核矩阵求逆,适用于小到中等规模数据的非线性回归问题。