高斯过程回归(Gaussian Process Regression)的原理与预测过程
题目描述
高斯过程回归(GPR)是一种基于贝叶斯思想的非参数回归方法。它通过假设函数服从高斯过程先验,直接对函数进行建模,从而提供预测值及其不确定性估计。例如,给定一组带噪声的观测数据 \((X, y)\),GPR 可以预测新输入 \(X_*\) 对应的输出 \(y_*\) 的概率分布。
解题过程
1. 高斯过程定义
- 高斯过程(GP)是无限多个随机变量的集合,其中任意有限个变量服从联合高斯分布。
- GP 由均值函数 \(m(x)\) 和协方差函数(核函数) \(k(x, x')\) 完全定义:
\[ f(x) \sim \mathcal{GP}(m(x), k(x, x')) \]
通常假设 \(m(x) = 0\)(数据可中心化处理)。
2. 模型建立
- 假设观测数据 \(y = f(x) + \epsilon\),其中 \(\epsilon \sim \mathcal{N}(0, \sigma_n^2)\) 为独立同分布的高斯噪声。
- 训练数据 \(X\) 与测试数据 \(X_*\) 的联合分布为:
\[ \begin{bmatrix} y \\ f_* \end{bmatrix} \sim \mathcal{N} \left( 0, \begin{bmatrix} K(X, X) + \sigma_n^2 I & K(X, X_*) \\ K(X_*, X) & K(X_*, X_*) \end{bmatrix} \right) \]
其中 \(K(X, X)\) 是训练点之间的核矩阵,\(K(X, X_*)\) 是训练点与测试点之间的核矩阵。
3. 后验分布推导
- 利用联合高斯分布的条件分布公式,可得测试点 \(f_*\) 的后验分布:
\[ f_* \mid X, y, X_* \sim \mathcal{N}(\bar{f}_*, \operatorname{cov}(f_*)) \]
其中:
- 预测均值:
\[ \bar{f}_* = K(X_*, X) [K(X, X) + \sigma_n^2 I]^{-1} y \]
- 预测协方差:
\[ \operatorname{cov}(f_*) = K(X_*, X_*) - K(X_*, X) [K(X, X) + \sigma_n^2 I]^{-1} K(X, X_*) \]
4. 核函数选择
- 常用核函数如径向基函数(RBF):
\[ k(x, x') = \sigma_f^2 \exp\left(-\frac{\|x - x'\|^2}{2l^2}\right) \]
参数 \(\sigma_f^2\)(信号方差)和 \(l\)(长度尺度)通过最大化边缘似然估计:
\[ \log p(y \mid X) = -\frac{1}{2} y^T (K + \sigma_n^2 I)^{-1} y - \frac{1}{2} \log |K + \sigma_n^2 I| - \frac{n}{2} \log 2\pi \]
5. 预测与不确定性
- 预测均值 \(\bar{f}_*\) 是函数在 \(X_*\) 处的最佳估计。
- 预测协方差 \(\operatorname{cov}(f_*)\) 量化不确定性:在数据稀疏区域不确定性增大,在数据密集区域不确定性减小。
关键点总结
- GPR 通过核函数编码函数平滑性假设,无需指定参数化模型。
- 后验分布直接给出预测的完整概率描述,适用于不确定性敏感的应用(如贝叶斯优化)。
- 计算复杂度为 \(O(n^3)\)(源于矩阵求逆),需优化处理大规模数据。